PDF 문서 번역 시리즈 7/7: PDF 문서를 번역할 때 도움이 되는 웹 사이트

이번에는 ABBYY 사의 OCR 엔진을 사용하여 무료로 OCR을 할 수 있는 사이트를 하나 소개해 드리려 합니다. 잠깐 짚고 넘어가자면, 앞서 언급한 것처럼 요즘 많은 문서 관련 프로그램에 OCR 기능이 있지만 한국어 인식은 만족스럽지 못한 것이 사실입니다. 러시아의 ABBYY사(Lingvo라는 전자 사전으로도 유명한 회사지요.)의 제품 중 FineReader라고 한국어 OCR에서는 독보적인 인식률을 자랑하는 프로그램이 있는데, 아니나다를까 가격이 무척 비쌉니다.

 

Picture122

 

그리고 같은 회사에서 만든 PDF Transformer+ 라는 제품이 있습니다. 이 녀석은 레이아웃을 편집할 수 없는 대신 가격이 1/3 정도로 저렴합니다. “내가 다루는 PDF 문서는 스캔이 잘 되어 있고 표나 그림이 많지 않다, 저렴하고 한국어가 잘 인식되기만 하면 된다.”라고 생각하는 번역가라면 PDF Transformer+도 한번 고려해볼 만 합니다. FineReader와 같은 OCR 엔진을 사용하기 때문에 한국어 인식 성능은 같습니다. 즉, FineReader가 문자 인식과 문서 변환에 초점을 맞춘 프로그램이라면, PDF Transformer+는 Acrobat과 유사하게 PDF 편집에 중점을 둔 프로그램입니다(주석 기능은 오히려 Acrobat보다 좋습니다). 여기에 더하여 간단한 문서 OCR이 가능한 것이고요. 물론 FineReader처럼 파일 변환이 주 기능이 아니기 때문에 전문적인 옵션은 없지만, 프로그램 구조가 단순하고 스캔 상태가 깨끗한 문서라면 아주 잘 인식됩니다. 인터페이스와 속도, 안정성도 나무랄 데 없고 한국어 메뉴도 지원하고요. 내가 OCR하려는 문서가 어느 정도 인식 가능한지 궁금하신 분은 FineReader, Transformer+ 모두 평가판이 있으므로 구입 전에 확인해보실 수 있습니다. ▼

 

Picture123

 

“저는 OCR 기능을 가뭄에 콩나듯 정말 가끔 사용합니다. 이럴 때 쉽게 OCR 할 수 있는 방법은 없나요?”

 

네, 방법이 있습니다. 자주 사용하면 모르겠으나 가끔 하는 OCR 작업 때문에 위 제품을 구입하기는 좀 부담스럽지요. 이럴 땐 여기에서 온라인으로 OCR을 할 수 있습니다.

 

ABBYY사 제품의 한국 총판에서 제공하는 서비스입니다. 아래 안내와 같이 PDF 문서 파일과 JPG, PNG, BMP, TIF 그림 파일을 지원하므로 스캔한 PDF 문서를 업로드하셔도 되고 직접 스마트폰으로 찍은 사진 파일을 업로드하셔도 됩니다. 여기도 먹고 살아야 하니 무한정 OCR을 할 수는 없고 제한이 있다고 하는군요. “1회 변환 시 3페이지 이내, 하루에 총 10회까지 변환할 수 있습니다.”라고 합니다. ▼

 

Picture124

 

저는 이런 파일을 올려보기로 했습니다. 삼국사기의 “소녀 지은 설화”의 일부분입니다. 보시다시피 스캔 상태가 썩 좋지는 않습니다. ▼

 

Picture125

 

먼저 변환할 파일을 선택합니다. ▼

 

Picture126

 

언어 옵션은 고정되어 변경할 수 없습니다. 그냥 다음 버튼을 누르시면 됩니다. 로그인을 하라고 하는 경우도 있는데 저는 Google 아이디를 사용하여 로그인했습니다. 개인 정보를 많이 요구하거나 하지는 않습니다. ▼

 

Picture127

 

Google 아이디로 로그인하면 이메일 정보가 이미 채워져 있습니다. 레티아로부터 딱히 메일을 받고 싶은 것은 아니므로 “레티아로부터 새 소식을 받고 싶습니다.” 항목은 체크 해제하였습니다.

 

나머지 항목은 바꿀 수 있는 것이 없군요. 그대로 두고 다음을 클릭합니다. ▼

 

Picture128

 

내용을 확인하고 마지막으로 문서변환을 클릭하면 잠시 후 메일로 OCR된 Word 파일이 도착합니다. ▼

 

Picture129

 

시간이 조금 걸릴 때도 있는데 보통 몇 분 내로 이메일이 도착합니다. 첨부 파일을 열어볼까요? ▼

 

Picture130

 

이렇게 Word 파일로 OCR이 완료되었습니다.

 

Picture131

 

물론 오자가 여기저기 있긴 합니다만, 스캔 상태가 좋지 않은 문서임에도 이 정도 품질이면 무료치고는 상당하지요. FineReader가 없을 때, 급하게 한국어 문서 몇 장을 OCR해야 할 때 제법 쓸모가 있습니다. 이런 데가 있구나, 하고 기억해 두셨다가 필요하실 때 요긴하게 사용하시길 바랍니다.

0 Comments

댓글을 남겨주세요

error: Content is protected !!