Wyodrębnij tekst ze skanu PDF — darmowe OCR w przeglądarce
Skanowany PDF to w zasadzie fotografia papieru — widzisz tekst, ale nie możesz go zaznaczyć, przeszukać ani skopiować. Aby uczynić go użytecznym potrzebujesz OCR (optyczne rozpoznawanie znaków). Większość narzędzi OCR online wymaga wysyłania i konta. Oto jak zrobić OCR za darmo, całkowicie w przeglądarce.
Co właściwie robi OCR
OCR analizuje każdy obraz strony, rozpoznaje kształty liter i konwertuje je na prawdziwy tekst Unicode. Oryginalny układ jest zachowany, wynik nadal wygląda jak skan, ale pod spodem jest teraz wyszukiwalny tekst. Skan 10 stron przetwarza się w 10–30 sekund w zależności od procesora.
Dlaczego OCR w przeglądarce bije OCR w chmurze
Chmurowe usługi OCR (nawet darmowe) wysyłają twój skan na ich serwery. Jeśli skan zawiera dowód osobisty, deklarację podatkową lub umowę, właśnie udostępniłeś go stronie trzeciej. OCR w przeglądarce uruchamia silnik rozpoznawania (Tesseract.js skompilowany do WebAssembly) całkowicie na twoim urządzeniu — plik nigdy nie opuszcza przeglądarki.
Jak zrobić OCR skanu PDF w przeglądarce
Otwórz narzędzie OCR, upuść skan PDF, wybierz język dokumentu (polski, angielski, niemiecki, francuski, hiszpański, włoski, portugalski, niderlandzki, japoński, koreański, hindi, arabski, chiński — i ponad 90 innych) i kliknij Przetwórz. Wynikiem jest wyszukiwalny PDF, który możesz pobrać. Otwórz go w dowolnym czytniku PDF i użyj Ctrl+F do wyszukiwania.
Szybka wskazówka: Dokładność OCR zależy od jakości skanu. Zeskanuj ponownie w 300 DPI, jeśli tekst wychodzi zniekształcony. Wyprostuj najpierw przekrzywione strony narzędziem Obróć — nawet 5° przekrzywienia psuje rozpoznawanie.
Uruchom OCR na skanie PDF
Darmowe, bez wysyłania, obsługuje ponad 100 języków w tym arabski, hindi, chiński, japoński, koreański.
Otwórz narzędzie OCR →