7z(7-zip)을 c#에서 사용하는 방법을 구글에서 검색하면, 일단 제일 먼저 위의 글을 발견하게 된다.
뭔가 방법이 많은데.. 그만큼 고민이 많다는 뜻이 되겠다.
먼저 개념부터 잡고 가자. 7z은 파일을 압축할 때는 LZMA라고 하는 암호화 라이브러리로 압축을 한다. 좀 더 정확하게 말하자면, 파일 하나의 내용물만 압축할 때는 이 LZMA를 사용한다. 하지만, 여러 개의 압축된 파일을 하나로 묶고 싶다면? 이때 필요한 것이 7z이라는 파일 포맷이다. 7z 파일 포맷에는 파일명과 파일 사이즈, 날짜 등 각종 추가 정보도 포함되어 있다. 즉, 알맹이는 LZMA이고 껍데기는 7z이라는 파일의 형태인 것이다. (이런 방식은 zip 등 다른 압축 파일 형식도 유사하다)
사용 방법은 간단해 보이지만, 파일이 깨진다는 댓글도 있고, DLL 로딩하느라 그런지 느리다는 얘기도 있다. 게다가 유지보수 안 한 지 꽤 오래되어 보인다. 즉, 프로젝트가 중단되었다는 얘기이다. 게다가 이 패키지는 비주얼 스튜디오 내부의 NuGet 브라우저에서 검색도 안된다. NuGet 홈에서 수동으로 다운로드하여야 한다.
SharpCompress 라고 하는 패키지인데, 7z, zip, rar 등 다양한 포맷을 지원하는 걸로 보이고, 다운로드 수도 어마어마하다. 단, 이 패키지는 .Net Standard 2.0 / .Net 5.0 이상만 지원한다. 즉, 예전 윈도에서는 호환성 문제가 있다.
마지막으로 살펴 볼 방법은 스택오버플로우 질문 글에서 채택한 답변인데, 아주 간단하다.
그냥 7z.exe를 프로세스로 실행하는 방법이다. 너무 간단해서 허무할 수도 있는데, 그래서 NuGet을 아무리 뒤져 봐도 내가 원하는 심플한 라이브러리를 못 찾은 게 아닌가 싶다.
7z.exe를 사용해서 파일 하나를 압축하는 방법을 간단히 c# 콘솔 버전 코드로 작성하자면 이렇다.
static bool Compress(string output, string input)
{
try
{
ProcessStartInfo info = new ProcessStartInfo();
info.FileName = "7za.exe";
info.Arguments = "a -t7z \"" + output + "\" \"" + input;
info.WindowStyle = ProcessWindowStyle.Hidden;
Process P = Process.Start(info);
P.WaitForExit();
int result = P.ExitCode;
if (result != 0)
{
Console.WriteLine("error!! code = " + result);
return false;
}
return true;
}
catch (Exception e)
{
Console.WriteLine(e.Message);
return false;
}
}
static void Main(string[] args)
{
if (Compress("d:\\dummy.7z", "d:\\dummy.txt"))
{
Console.WriteLine("Success.");
}
else
{
Console.WriteLine("Failed.");
}
Console.ReadKey();
}
그런데, 본인이 작성한 코드를 자세히 보면 실행파일 이름이 7z.exe가 아니라 7za.exe이다.
일반적인 패키지와 달리 클래스 라이브러리는 없고, 저 7za.exe만 실행파일 위치에 복사해서 넣어주는 좀 이상한 패키지이다.
7za.exe와 7z.exe는 어떻게 다를까?
일단 7-zip 어플을 공식 홈페이지에서 다운로드하여서 설치하면, c:\Program Files\7-zip 혹은 c:\Program Files (x86)\7-Zip\ 폴더에 설치되는데, 거기에 있는 readme.txt를 먼저 읽어 보자.
7zFM.exe - 7-Zip File Manager - 압축파일을 다양한 방식으로 다룰 수 있는 UI 툴이다. 7-zip.dll - Plugin for Windows Shell - 탐색기 콘텍스트 메뉴에서 7z을 사용할 수 있게 해주는 dll 7-zip32.dll - Plugin for Windows Shell (32-bit plugin for 64-bit system) - 이건 64비트 윈도용 32비트 버전 7zg.exe - GUI module - 콘솔 버전처럼 사용하는 툴이지만 결과가 팝업 UI로 표시되는 툴 7z.exe - Command line version - 콘솔 버전이다! 개발자에게 필요한 건 이것! 7z.dll - 7-Zip engine module - 7z.exe에서는 사용하는 dll. 7z.sfx - SFX module (Windows version) - 셀프 압축 해제용 실행파일을 만들 때 필요한 모듈 (윈도용) 7zCon.sfx - SFX module (Console version)- 셀프 압축 해제용 실행파일을 만들 때 필요한 모듈 (콘솔용)
즉, 위의 내용을 보면 7z.exe 와 7z.dll 최소 두 개의 파일을 내가 개발한 어플에 같이 포함해서 배포해야 한다는 얘기가 된다. 용량은 1.3MB 정도로 얼마 되지는 않는다. 7z.exe가 dll을 따로 분리한 것은 추후 다른 포맷을 쉽게 추가하기 위한 구조로 보면 된다.
반면, 7za.exe 확장성은 없지만, 독립(stand alone) 실행이 가능한 버전이다. 7z.exe와 dll을 합쳐 놓은 거라 보면 되고, 용량은 절반 정도로 훨씬 가볍다. 그래도 여전히 다양한 포맷(7z, lzma, zip,7z, lzma, cab, zip, gzip, bzip2, Z, tar)을 지원한다.
그 외에 7zr이라는 것도 있다. 7z 포맷만 필요한 경우에 사용하면 되는 더 가벼운 버전이지만, 리눅스 버전 등은 있지만 윈도용 바이너리는 따로 배포하는 거 같지는 않다. 7-zip 소스 코드를 보니 프로젝트 파일이 존재하기는 한다. 7zr이 꼭 필요하다면 소스를 컴파일해서 만들어서 써야 할 것으로 보인다.
길게 설명했지만, 결론은 7za.exe파일 하나만 첨부하면 된다는 뜻.
그리고, NuGet에서 배포 중인 7za의 버전은 현재 16.04 버전이다. 더 최신 버전인 19.00을 다운로드하고 싶다면, 공식 홈페이지에서 다운로드하면 된다.
마지막 고민은 7za를 쓸 것인가 아니면 LZMA를 직접 사용할 것인가이다. 현재 진행 중인 프로젝트에서는 용량은 크지 않지만, 많은 파일을 압축 해제해야 하기 때문에 성능도 중요하다. 7za를 사용하면 호환성이 좋고 코드는 심플해지지만 매번 프로세스를 호출해야 하는 부담이 있다. 반면, LZMA 라이브러리를 사용하면 이미 메모리에 적재된 함수를 사용하는 거라서 아무래도 성능이 더 좋지 않을까 하는 생각이 든다. 다만 이렇게 하면 파일 포맷은 *.7z이 아닌 *.lzma나 혹은 아예 나만의 커스텀 포맷을 써야 한다는 부담이 있다.
추가 내용
c#용으로 나온 LZMA SDK를 실제로 사용해 보니, 압축속도는 7z.exe를 이용하는 것보다 2배 정도 느렸지만, 압축해제를 할 때는 2배 정도 빨랐다. c++ 코드를 그대로 c#으로 포팅한 것이다 보니 성능은 좀 애매하게 나오는 걸로 보인다.
또, 예전 라이브러리 같아서 사용하지 않으려고 했던 SevenZipSharp를 다시 찾아보니, 다른 이름으로 바뀌어서 명맥을 유지하고 있었다. www.nuget.org/packages/Squid-Box.SevenZipSharp/ 이 라이브러리로 테스트를 해보니 7z.exe를 직접 실행하는 것보다 압축과 해제 통틀어 1.4~2배 정도 빨랐다. 아무래도 이걸 써야겠다. 역시 구관이 명관인가 보다.
C#은 가비지 컬렉터(GC)가 메모리를 자동으로 관리한다. 필요 없는 클래스의 인스턴스를 메모리에서 바로 지우는 게 아니라, 조건이 될 때까지 기다렸다가 지우기 때문에 클래스를 지웠다고 해도 그게 실제로 바로 삭제되는 것은 아니다. 일반적인 메모리라면 GC에 맡겨도 상관이 없지만, 관리되지 않는(Unmanaged, Native) 리소스는 즉각 해제해야 하는 경우가 생기는데, 그럴 때 필요한 것이 Dispose이다.
그래서, C++의 경우 소멸자에 각종 변수의 메모리를 해제하는 것으로 간단하게 구현이 될 만한 내용이지만, C#에서는 바로 삭제가 필요한 리소스를 해제하기 위해서 Dispose 함수가 필요하다.
영화 '포드 v 페라리'를 보면 1966년 르망24시 경주에서 세 대의 GT40이 나란히 결승점을 통과한다. 눈 크게 뜨고 봐도 1cm의 오차도 없어 보일 정도로... 그런데, 동시에 들어 올 경우 공동 우승이 아니라, 경기 시작시 좀더 뒤에서 출발한 차가 이긴다는 숨은(?) 규칙 때문에 주인공인 켄 마일즈 대신 멕라렌이 우승하게 된다.
저렇게 정확하게 운전하면서 들어왔다고? 이해는 잘 안되었지만, 그냥 그런가보다 하고 넘어갔다가 나중에 인터넷에 돌아다니는 다른 글들 때문에 헷갈리기 시작했다. 영화와는 다르게 실제로는 '결승점 바로 앞에서 멕라렌이 약속을 깨고 먼저 들어가는 바람에 순위가 바뀌었다'라는 주장이었다. 맥라렌이 나쁜 짓(?)을 했지만, 영화에서 사실대로 묘사하면 너무 욕을 먹을까봐 적당히 각색해서 찍었다는 추론이 가능한 주장이다. 나는 그가 정말로 그러했는지 궁금해서 당시 기록 영상을 찾아봤다.
12분 즈음에 결승 통과하는 장면 나옴.
영상을 찾아보니 정말로 그렇게 보였다. 영상에서 하늘색 1번이 켄 마일즈의 차량이고, 검정색 2번이 멕라렌이 운전한 차량이었는데 결승점을 통과할 때 확실히 검정색의 2번 맥라렌 차량이 먼저 들어온다. 영화와는 다른 점이다. 그렇다면 그 주장이 사실인 것일까?
그래서 좀더 검색을 해보았다. 그런데, 뭔가 이상하다. 실제 경기를 설명하는 글들을 읽어 보니 영화와 별로 다르지 않다. 켄 마일즈가 속도를 일부러 늦춘 것도 사실이고, 경기 결과도 1차적으론 무승부(dead heat)였지만, 무승부일 경우 가장 먼 거리를 주행한 차가 우승한다는 룰 때문에 승부가 뒤집어진 것도 사실이라는 글들을 발견했다. 그렇다면 왜 저런 오해가 생긴 것일까?
그것은 르망24시 경주만의 독특한 룰 때문이었다.
당시 르망 24시에서 순위를 가르는 기준은 다른 레이싱 경기와 달리 시간이 아닌 거리였다. 이론적으론 24시간을 지난 시점 딱 그 시점의 주행 거리이다. 하지만, 24시간이 경과했을 때 모든 차의 위치를 정확히 기록할 수는 있는 방법이 당시엔 없었기에, 24시간이 지난 후 결승선을 통과했을 때를 기준으로 총 몇 바퀴를 돌았는지를 비교했다. 굉장히 부정확해 보이지만 이게 가능했던 이유는, 그 당시까지만 해도 1등과 2등 차이가 최소 2~4바퀴 이상 크게 벌어졌기 때문이다. 그래서, 두 대 이상의 차가 같은 바퀴 수를 돌고 들어오는 바람에 그걸 무승부로 간주하고 시작 위치까지 따지는 숨은 룰을 적용해야 했던 적은 한번도 없었던 걸로 보인다. 1966년 포드 GT40 세 대가 거의 동시에 결승선을 통과하기 전 까지는...
참고로, 1966년 당시 순위는 이렇다. (1, 2위가 같은 바퀴 수를 돌았다.)
1위 : 360 바퀴 - Ford GT40 Mk.II - Bruce McLaren, Chris Amon
2위 : 360 바퀴 - Ford GT40 Mk.II -Ken Miles, Hulme
3위 : 348 바퀴 - Ford GT40 Mk.II -Ronnie Bucknum, Dick Hutcherson
이전에 그런 사례가 없었기 때문에 당시의 레이서들도 그런 숨은 룰이 있다는 걸 모르고 경주를 했던 거 같다. 포드 팀에서는 마지막 랩에 들어서야 그런 룰이 있다는 걸 뒤늦게 발견했지만 레이서에게 알릴 방법이 없었다고 한다. 동시에 들어오자는 아이디어가 현장에서 즉흥적으로 나온 거라서 충분히 검토할 시간이 부족했던 거 같다. 결국 그 아이디어는 켄 마일즈가 3관왕을 못하는 참사로 이어졌다. 르망24의 이 애매한 규정은 1971년에 롤링 스타트가 도입 되면서 고쳐졌는데, 바퀴 수가 동일할 경우 총 주행시간이 짧은 차, 즉 지금 우리에게 익숙한 방식인 '결승선에 먼저 들어오는 차가 우승'하는 방식으로 바뀌었다.
결국, 영화에서 차량 3대가 동시에 들어오는 것처럼 보여 준 이유는 지금의 상식으로는 잘 이해되지 않는 당시의 룰을 제한된 시간 안에 관람객들에게 효과적으로 전달할 수 있는 방법을 고민하다가 지금의 룰과 비슷하게 연출하여 관객들의 혼란을 줄이려 한 일종의 궁여지책으로 보인다.
사족1. 영화를 보면 켄 마일즈가 페라리를 추월하는 장면이 두번 나온다. 첫번째 추월에서는 상대 페라리 드라이버가 그냥 기분 나빠하는 정도이지만, 두번째에는 크게 당황하는데 한바퀴 이상 벌어지면 순위가 확실히 바뀌기 때문이다.
사족2. 당시 우승한 맥라렌은 우리가 아는 유명한 슈퍼카의 그 맥라렌이 맞다. 안타깝게도 켄 마일즈처럼 맥라렌도 1970년에 신형 자동차를 서킷에서 테스트하다 사고로 사망했다.