czwartek, 29 kwietnia 2021

Felieton: Digitalizacja: Skanowanie

Wybraliśmy i przygotowaliśmy materiały do skanowania. Czas wrzucić akta na ruszt czyli na szybę :). Jednak przedtem musimy określić na jakim sprzęcie mamy skanować. Wybór zależy od wielu czynników tj. od budżetu, od zaplanowanego czasu, od rodzaju materiałów, które chcemy skanować. Tych kryteriów wyborów jest o wiele więcej. Skanery możemy podzielić ze względu na mechanizm działania tj.:

  • skanery płaskie
  • skanery planetarne
  • skanery przelotowe
  • skanery bębnowe
  • aparaty cyfrowe
  • aparaty skanujące
  • skanery do mikroform

Każdy z tych skanerów ma swoje wady i zalety. Dla potrzeb wpisów przyjąłem, że mamy jednorodne, dobrej jakości materiały aktowe (powyżej 90% całego zasobu). Obiekty do skanowania można podzielić na transparentne czyli takie, które przepuszczają światło: negatywy, slajdy, klisze szklane i obiekty refleksyjne, które odbijające światło: rysunki, grafiki, karty pocztowe, mapy. Skupmy się na tym, który dla nas ze w/w skanerów będzie najlepszy. Dla naszych potrzeb wybieram skaner przelotowy (produkcyjny). W zależności od ilości zasobu tworzymy tzw. farmę skanerów mniejszą lub większą. Takie skanery powinny być szybkie, wydajne i dającą odpowiednią jakość. Przykładowe parametry: Rozdzielczość optyczna 600 dpi, dupleks, A4/A3, wydajność 100-150 stron na minutę, z dużym podajnikiem ADF, obsługa wiele formatów plików (w tym przypadku dla nas będą się liczyć JPG/TIFF/PDF/XLS). Nie będę sugerował konkretnej marki. Każdy musimy dopasować skaner do własnych wymagań lub odwrotnie... wymagania do skanera.

W literaturze przedmiotu przyjęto podział na tzw. kopie wzorcowe i kopie użytkowe. Dodatkowo mamy tzw. naturalne obiekty cyfrowe (born digital), które charakteryzują się różnymi parametrami oraz typami plików (xml, xls, word i wiele innych). W archiwach pliki wzorcowe są obiektami, które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania oryginału, nie podlegające obróbce graficznej. W Archiwach przyjęto, że głównym formatem wzorcowego zapisu cyfrowego jest format TIFF, bez kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te wymagania określamy właśnie jako wystarczające ilości informacji. W przypadku kopii użytkowych nie mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest stratny JPG lub hybrydowy PDF.

W biznesie nie potrzebujemy takiej jakości jak w archiwach historycznych chociażby ze względu na rodzaj i jakość materiałów aktowych (o czym wcześniej wspominałem). Parametry mogą być następujące: pliki TIFF, bez kompresji, rozdzielczość od 200 do 300 ppi (w zależności od rodzaju materiału) z głębią kolorów 8 bitów szarości lub 24 bity. Z tych TIFFów tworzymy pliki PDF jako pliki końcowe (archiwalne). Możemy też od razu nastawić się na produkcję plików PDF o odpowiedniej rozdzielczości i odpowiednio zabezpieczonych. Dodatkową zaletą plików PDF jest wydajna kompresja dużych plików. Mając odpowiednie narzędzia pliki z grafiką o wielkości 20 MB możemy skompresować i zmniejszyć czterokrotnie. Pliki PDF bardziej nadają się do przechowywania i przeszukiwania informacji niż pliki graficzne.

Algorytmy jakości skanowanych dokumentów

Generalnie w archiwach zabrania się jakiekolwiek ingerencji w skany (kopie wzorcowe). Natomiast kopiach użytkowych takie ingerencje są już dopuszczalne tj. najczęściej dodaje się znak wodny, ingeruje się w takie opcje jak poziomy, kontrasty czy krzywe. Użycie odpowiednich algorytmów zależy do jakości skanowanych dokumentów. W biznesie te dokumenty powinny najczęściej być dobrej jakości. W archiwach niestety często jakość materiałów archiwalnych odbiega od wzorcowego. Wynika to ze stanu zachowania dokumentów (kwaśny papier) oraz jakości sporządzanych ówcześnie dokumentów. Widać to bardzo dobrze na mikrofilmach (według mnie najlepsza forma digitalizacji), gdzie złe mikrofilmowanie powoduje, że późniejsze cyfrowe skanowanie nawet wraz algorytmami nie pomogą w odczytaniu czy zrozumieniu treści dokumentów. 

Jakość dokumentów będzie poprawiana etapie produkcji lub postprodukcji skanów. W pierwszym kroku prócz formatu skanowania i rozdzielczości możemy ustawić tylko opcje takie jak jasność, kontrast, gamma - czyli niewiele. W drugim kroku mamy już do dyspozycji odpowiednie oprogramowanie. Tych opcji jest znacznie więcej tj. jasność, kontrast, krzywe, poziomy, balansy. Dodatkowo mamy do dyspozycji dziesiątki filtrów, które można użyć do plików graficznych czy wideo. Wiadomo, że tych dziesiątek filtrów będziemy mieli do dyspozycji tylko kilka. Wreszcie o ile dysponujemy dobrym budżetem możemy użyć algorytmy działające w oparciu o sieci neuronowe do poprawy jakości dokumentów np. EnhanceNet-PAT.


fot. pexel



Brak komentarzy:

Prześlij komentarz

Określenie celów wdrożenia systemu DMS

Przed wdrożeniem systemu zarządzania dokumentacją (DMS) , kluczowe jest określenie celów, które organizacja chce osiągnąć za jego pomocą. Te...