从扫描PDF提取文字 — 免费浏览器OCR
扫描PDF本质上是纸张的照片 —— 你能看到文字,但无法选择、搜索或复制。要使其可用,你需要OCR(光学字符识别)。大多数在线OCR工具要求上传和注册。这里教你完全在浏览器中免费做OCR。
OCR的实际作用
OCR扫描每个页面图像,识别字母形状并将其转换为真正的Unicode文字。原始布局得到保留,结果看起来仍像扫描件,但下面现在有可搜索的文字。10页扫描根据CPU在10-30秒内处理完成。
为什么浏览器OCR胜过云OCR
云OCR服务(包括免费的)将你的扫描文档上传到他们的服务器。如果扫描包含身份证、税表或合同,你刚刚与第三方共享了它。浏览器OCR在你的设备上完全运行识别引擎(编译为WebAssembly的Tesseract.js)—— 文件永不离开浏览器。
如何在浏览器中OCR扫描PDF
打开OCR工具,拖入扫描PDF,选择文档语言(中文、英文、德文、法文、西班牙文、意大利文、葡萄牙文、荷兰文、波兰文、日文、韩文、印地文、阿拉伯文 —— 以及90多种其他),然后点击处理。输出是可下载的可搜索PDF。在任何PDF查看器中打开并使用Ctrl+F搜索。
快速提示: OCR准确度取决于扫描质量。如果文字混乱,请以300 DPI重新扫描。先用旋转工具校正倾斜页面 —— 即使5°的倾斜也会降低识别效果。