스캔 PDF에서 텍스트 추출 — 브라우저 무료 OCR
스캔된 PDF는 본질적으로 종이의 사진입니다 — 텍스트는 보이지만 선택, 검색, 복사할 수 없습니다. 사용 가능하게 하려면 OCR(광학 문자 인식)이 필요합니다. 대부분의 온라인 OCR 도구는 업로드와 계정을 요구합니다. 완전히 브라우저에서 무료로 OCR을 수행하는 방법입니다.
OCR이 실제로 하는 일
OCR은 각 페이지 이미지를 스캔하고, 글자 모양을 식별하여 실제 유니코드 텍스트로 변환합니다. 원래 레이아웃은 보존되어 결과는 여전히 스캔처럼 보이지만, 그 아래에는 이제 검색 가능한 텍스트가 있습니다. 10페이지 스캔은 CPU에 따라 10~30초에 처리됩니다.
브라우저 OCR이 클라우드 OCR을 능가하는 이유
클라우드 OCR 서비스(무료 포함)는 스캔된 문서를 서버에 업로드합니다. 스캔에 신분증, 세금 신고서, 계약서가 포함되어 있다면 제3자와 공유한 것입니다. 브라우저 OCR은 인식 엔진(WebAssembly로 컴파일된 Tesseract.js)을 완전히 사용자의 기기에서 실행합니다 — 파일은 브라우저를 떠나지 않습니다.
브라우저에서 스캔 PDF를 OCR하는 방법
OCR 도구를 열고 스캔된 PDF를 드롭한 다음, 문서 언어(한국어, 영어, 독일어, 프랑스어, 스페인어, 이탈리아어, 포르투갈어, 네덜란드어, 폴란드어, 일본어, 힌디어, 아랍어, 중국어 — 그리고 90개 이상)를 선택하고 처리를 클릭하세요. 출력은 다운로드 가능한 검색 가능 PDF입니다. PDF 뷰어에서 열고 Ctrl+F로 검색하세요.
빠른 팁: OCR 정확도는 스캔 품질에 따라 달라집니다. 텍스트가 깨지면 300DPI로 다시 스캔하세요. 기울어진 페이지는 먼저 회전 도구로 똑바로 — 5° 기울기도 인식을 저하시킵니다.