CYFROWE ARCHI#WA: Felieton: Digitalizacja: OCR

środa, 5 maja 2021

Felieton: Digitalizacja: OCR

Skanowanie OCR są ważnym elementem w procesie digitalizacji zwłaszcza tekstowych dokumentów. Dzięki temu możemy nie tylko zachować wspomniany dokument, ale możemy wykorzystać go w późniejszym czasie dzięki możliwości edycji tekstu.

Wyróżniamy:

OCR (Optical Character Recognition)
HCR (Handprint Character Recognition)
ICR (Inteligent Character Recognition)
OMR (Optical Mark Recognition)

Krótko mówiąc OCR umożliwia automatyczne wykrywanie drukowanych znaków na skanowanym dokumencie. Następnie przekształca na edytowalna wersję. Mamy dwie drogi, albo skanujemy od razu z OCR lub dopiero na etapie postprodukcji załączamy proces OCR.

Jak działa skanowanie OCR ???

Najpierw kładziemy dokument na szybie skanera, włączamy oprogramowanie do skanowania, włączamy odpowiednią opcje i naciskamy przycisk "skanuj". Wbudowane oprogramowanie (najczęściej), które wykrywa znaki znajdujące się na dokumencie, a następnie automatycznie konwertuje na cyfrowe wersje. Taki tekst można ręcznie sprawdzić i poprawić. Następnie zapisujemy w odpowiednim formacie np. docx, PDF.

Zalety skanowania OCR

Starsze lub nieaktualne dokumenty możemy modyfikować/aktualizować
Tekst można przeszukiwać znacznie przyspieszając wyszukiwanie ważnych informacji (w formacie edytowalnym lub w pliku PDF) Tekst zajmuje znacznie mniej miejsca na dysku niż plik graficzny
Archiwizacja dokumentów jest po prostu szybsza

Dokładność skanowania OCR

OCR może być dokładny w 99%. Trzeba spełnić kilka warunków tj.:

dobry stan dokumentu
tekst w bloku (najlepiej tekst maszynowy)
odpowiednie tło dokumentu

Jeśli stan dokumentu jest zły to oczywiście procentowa dokładność spadnie. Dlatego jest niezbędna korekta OCR. Jest to praca bardzo czaso i pracochłonna zwłaszcza przy złym stanie dokumentacji.

Narzędzia wybrane:

ABBYY FlexiCapture,
ABBYY FineReader,
ABBYY FineReader Engine
Tesseract OCR

https://visualhunt.com/f5/photo/4450285105/73971ea3c8/

środa, 5 maja 2021

Felieton: Digitalizacja: OCR

Brak komentarzy:

Prześlij komentarz

AI NEWS dla archiwów cyfrowych #1

CYFROWE ARCHI#WA