スキャンPDFからテキスト抽出 — ブラウザ完結の無料OCR
スキャンPDFは本質的に紙の写真です — テキストは見えますが、選択や検索、コピーはできません。利用可能にするにはOCR(光学文字認識)が必要です。多くのオンラインOCRツールはアップロードとアカウントを要求します。完全にブラウザで無料OCRを行う方法を紹介します。
OCRが実際に行うこと
OCRは各ページ画像をスキャンし、文字の形状を識別して実際のUnicodeテキストに変換します。元のレイアウトは保持され、結果はスキャンのように見えますが、下層には検索可能なテキストがあります。10ページのスキャンはCPUによって10〜30秒で処理されます。
ブラウザOCRがクラウドOCRより優れる理由
クラウドOCRサービス(無料を含む)はスキャン文書をサーバーにアップロードします。スキャンに身分証、税務書類、契約書が含まれていれば、第三者と共有したことになります。ブラウザOCRは認識エンジン(WebAssemblyにコンパイルされたTesseract.js)を完全にデバイス上で実行します — ファイルはブラウザを離れません。
ブラウザでスキャンPDFをOCRする方法
OCRツールを開き、スキャンPDFをドロップし、文書言語(日本語、英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語、ポーランド語、韓国語、ヒンディー語、アラビア語、中国語、その他90+)を選び、処理をクリックします。出力はダウンロード可能な検索可能PDFです。任意のPDFビューアで開きCtrl+Fで検索できます。
クイックヒント: OCRの精度はスキャン品質に依存します。テキストが文字化けする場合は300DPIで再スキャンしてください。傾いたページは先に回転ツールで真っ直ぐに — 5°の傾きでも認識精度が低下します。