Skanowanie OCR są ważnym elementem w procesie digitalizacji zwłaszcza tekstowych dokumentów. Dzięki temu możemy nie tylko zachować wspomniany dokument, ale możemy wykorzystać go w późniejszym czasie dzięki możliwości edycji tekstu.
Wyróżniamy:
- OCR (Optical Character Recognition)
- HCR (Handprint Character Recognition)
- ICR (Inteligent Character Recognition)
- OMR (Optical Mark Recognition)
Krótko mówiąc OCR umożliwia automatyczne wykrywanie drukowanych znaków na skanowanym dokumencie. Następnie przekształca na edytowalna wersję. Mamy dwie drogi, albo skanujemy od razu z OCR lub dopiero na etapie postprodukcji załączamy proces OCR.
Jak działa skanowanie OCR ???
Najpierw kładziemy dokument na szybie skanera, włączamy oprogramowanie do skanowania, włączamy odpowiednią opcje i naciskamy przycisk "skanuj". Wbudowane oprogramowanie (najczęściej), które wykrywa znaki znajdujące się na dokumencie, a następnie automatycznie konwertuje na cyfrowe wersje. Taki tekst można ręcznie sprawdzić i poprawić. Następnie zapisujemy w odpowiednim formacie np. docx, PDF.
Zalety skanowania OCR
- Starsze lub nieaktualne dokumenty możemy modyfikować/aktualizować
- Tekst można przeszukiwać znacznie przyspieszając wyszukiwanie ważnych informacji (w formacie edytowalnym lub w pliku PDF) Tekst zajmuje znacznie mniej miejsca na dysku niż plik graficzny
- Archiwizacja dokumentów jest po prostu szybsza
Dokładność skanowania OCR
OCR może być dokładny w 99%. Trzeba spełnić kilka warunków tj.:
- dobry stan dokumentu
- tekst w bloku (najlepiej tekst maszynowy)
- odpowiednie tło dokumentu
Jeśli stan dokumentu jest zły to oczywiście procentowa dokładność spadnie. Dlatego jest niezbędna korekta OCR. Jest to praca bardzo czaso i pracochłonna zwłaszcza przy złym stanie dokumentacji.
Narzędzia wybrane:
- ABBYY FlexiCapture,
- ABBYY FineReader,
- ABBYY FineReader Engine
- Tesseract OCR
Brak komentarzy:
Prześlij komentarz