piątek, 25 czerwca 2021

Felieton: SZTUCZNY TIFF czyli prawie wszystko o graficznych formatach cyfrowych stosowanych w digitalizacji

Poważny temat :)) Generalnie artykuł znalazł się w czasopiśmie More Maiorum.:)) Czemu sztuczny tiff??? W gwarze swojej określam pliki cyfrowe zrobione niezgodne z wszelkimi zasadami... Krótko omówię zagadnienie formatów cyfrowych stosowanych w digitalizacji w archiwach. Ograniczę się tylko do formatów graficznych, oraz spróbuję zastanowić się nad przyszłością.

DEFINICJE...

Głównym celem digitalizacji jest ochrona cennych zbiorów, a następnie udostępnienie ich w wersji cyfrowej dla szerokiego grona użytkowników[1]. Te obiekty cyfrowe w naszej literaturze przedmiotu zostały podzielone na kopie wzorcowe i kopie użytkowe, które mogą występować pod postacią plików graficznych lub audiowizualnych zapisywanych we właściwych formatach. Kopia wzorcowa (kopia-matka, kopie źródłowe, kopie zabezpieczające, dane wzorcowe, master file) są obiektami, które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania oryginału, nie podlegające obróbce graficznej… Ale co znaczy wystarczające ilości informacji ???. Przyjęto, że głównym formatem wzorcowego zapisu cyfrowego jest format TIFF 6.0[2], bez kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału, który jest skanowany) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te wymagania określamy właśnie jako wystarczające ilości informacji. W przypadku kopii użytkowych (kopie pochodne) nie mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest stratny JPG. Takie kopie najczęściej sporządza się z plików wzorcowych. Nazewnictwo jest różnorodne. W Standardach w procesie digitalizacji obiektów dziedzictwa kulturowego wymienia się obiekty cyfrowe wtórne tj. kopie wzorcowe (o dużej dokładności i wierności odtwarzania) oraz użytkowe (pochodne – o mniejszej dokładności, przeznaczone do udostępniania w sieci)[3]  a także naturalne obiekty cyfrowe (born digital)[4]. Aleksander Trembowiecki swej „Digitalizacji dla początkujących” podzielił formaty na archiwalne (pliki matrycowe, matryce, mastery) i reprezentacyjne, które są z kolei podzielona na formaty graficzne i formaty hybrydowe[5].

W ARCHIWACH...

Głównym dokumentem określającym politykę digitalizacyjną jest zarządzenie Nr. 14 Naczelnego Dyrektora Archiwów Państwowych z dnia 31 sierpnia 2015 roku w sprawie digitalizacji zasobu archiwalnego archiwów państwowych[6]. Kopia wzorcowa według zarządzenia to kopia zapisana w formatach bezstratnych bez kompresji lub z kompresją bezstratną. Takie pliki nie mogą być poddawane obróbkom graficznym (prócz kadrowania, mającego na celu usunięcie tła wokół obiektu skanowanego). Natomiast kopie użytkowe wykonuje się z kopii wzorcowych, które różną się od nich mniejszą rozdzielczością, innym nazewnictwem, zastosowaną obróbką graficzną np. dodanie znaków wodnych. Mogą być też poddawanie procesom OCR. W załączniku tegoż Zarządzenia podano parametry wymagań dotyczący kopii wzorcowych. Rozdzielczość skanowania ze względu na rodzaj dokumentów wynosi od 300 do 600 ppi, format zapisu TIFF 6.0 bez kompresji, głębia kolorów 8-bitowa skala szarości i 24-bitowa RGB. W skanowaniu mikrofilmów dopuszcza się format JPG (100% jakości) ze względu na spowolnienie pracy skanera trakcie zapisu w formacie TIFF. Kolejnym dokumentem jest Katalog praktyk i standardów digitalizacji materiałów archiwalnych[7], który jest praktycznie rozbudowaną wersją zarządzenia. Podane są te same definicje oraz te same założenia digitalizacyjne. Katalog ma kilka wersji: dla materiałów archiwalnych, bibliotecznych, muzealnych i audiowizualnych[8]

Ciekawym rozwiązaniem jest podział dokumentów ze względu na typ dokumentu. Taki podział pojawił się w Standardach… gdzie rodzaje materiałów przeznaczonych do digitalizacji podzielono na siedem grup (od A do G)[9]. Wszystkie te grupy mają określone wymagania minimalne i zalecane pod kątem formatu, rozdzielczości itp.. Jednak ta propozycja nie przyjęła się. Podział ten ma swoje lata więc należałoby ponownie przeprowadzić analizę zasadności takich, a nie innych podanych wymagań.

FORMATY ZAPISU

Formaty zapisu można podzielić generalnie na dwie grupy: wzorcowa (TIFF, RAW, JPG2000), użytkowa (JPG, DjVu, PDF).

TIFF

Format TIFF został opracowany w 1986 roku i służy do zapisywania grafiki rastrowej[10]. Praktycznie format ten zmonopolizował w kwestii zapisu plików przez skanery. TIFF pozwala zapisywanie dokumentów wielostronicowych, pozwala też na  zapisywanie obrazów stworzonych w skali szarości oraz w trybach koloru. Obsługuje 64 bitową głębię kolorów. Może przechowywać ścieżki i kanały alfa, profile koloru, komentarze tekstowe. Do wyboru jest kompresja bezstratna (LZW lub CCITT T.6), kompresja stratna lub bez kompresji. Obecnie obowiązuje standard TIFF 6.0. Jedyną wadą tego formatu jest duży rozmiar plików.

RAW

Format ten głownie występuję w fotografii cyfrowej[11]. Plik RAW w odróżnieniu do np. TIFF zawiera surowe dane z matrycy światłoczułej. Jest uważany za cyfrowy odpowiednik negatywu. Format ten charakteryzuje się dużym zakresem tonalnym, brakiem kompresji stratnej i zawiera zazwyczaj 12 lub 14 bitów na piksel. Obsługuje kolory w trybie RGB, CMYK i odcienie szarości. Problemem jest to, że obecnie każdy producent aparatów stosuje własny, najczęściej niezgodny z innymi, format plików typu RAW. Także wiele przeglądarek wymaga instalacji odpowiednich dodatków aby móc przeglądać ten format, już nie mówiąc o obróbce graficznej. W digitalizacji format ten jest nieczęsto stosowany.

JPG2000

Stosunkowo młody i stosunkowo mało popularny format[12]. Generalnie jest to nowsza wersja JPG z kompresją bezstratną. Zaletą formatu jest lepsza jakość obrazu przy tym samym stopniu kompresji. Inną zaletą jest mała wielkość plików w porównaniu do plików TIFF czy RAW. W digitalizacji ten format jest mało popularny ze względu na brak wsparcia w programach graficznych.

JPG

Standard JPEG (Joint Photographic Experts Group) jest bez wątpienia najpopularniejszy format grafiki rastrowej używany w fotografii cyfrowej, na stronach WWW itp.. Początki sięgają 1983 roku. Publikacja standardu nastąpiła w 1991[13] roku. Plik JPG jest zapisywany w trybie RGB po 8 bitów na kolor. W JPG możemy zastosować pełną gamę kolorów. Mamy możliwość też ustalenia stopnia kompresji. Wielką zaletą jest niewielki rozmiar oraz wsparcie przez wszystkie programy graficzne. Jest to format stratny (wersją bezstratną jest wspomniany wyżej format JPG200). W digitalizacji format ten używa się głównie w tworzeniu kopii użytkowych na potrzeby własne jak i dla użytkowników. Taka delikatniejsza kopia cyfrowa :)).

DjVu

Jest to bardzo ciekawy format graficzny. Można go nazwać formatem hybrydowym mającym w sobie oddzielnie tekst i grafikę[14]. Format ten jest  oparty na metodzie segmentacji obrazu[15]. Polega to na rozdzieleniu obrazów na odrębne warstwy i poddaniu ich odrębnej optymalizacji i kompresji. Wyróżniamy zazwyczaj dwie warstwy - warstwę tła i treści. Aby taki plik był bardziej funkcjonalny dodaje też trzecią warstwę - OCR zawierający rzeczywisty tekst.  Dokumenty w formacie DjVu ogląda się najczęściej za pomocą przeglądarki internetowej uzupełnionej o odpowiednią wtyczkę. Można też stosować odrębne przeglądarki plików. Zarówno wtyczki, jak i przeglądarki dostępne są darmowo[16]. Bardzo ważną cechą plików DjVu są bardzo małe rozmiary, nawet mogą być 1000 razy mniejsze niż standartowy TIFF. Mały rozmiar powoduje, że pliki mogą być szybciej przesyłane, szybciej otwierane. Jest to format popularny głównie w bibliotekach cyfrowych[17].

PDF

PDF (Portable Document Format) został stworzony przez firmę Adobe i jest formatem hybrydowym służący do prezentacji tekstu jak i grafiki[18]. Jest to popularny format mający duże wsparcie w postaci wielu programów do przeglądania, do edycji, darmowych jak i płatnych. Do zalet plików PDF można zaliczyć: możliwość umieszczenia w pliku grafiki rastrowej, wektorowej, akapitowego tekstu, tworzenie zakładek, hiperłączy, dodanie warstwy OCR. Ważną kwestią jest bezpieczeństwo. Jest możliwość szyfrowania dokumentów PDF i możliwość  ograniczenia czynności, które nie mogą być dokonywane przez użytkownika. Do wad należy zaliczyć brak możliwości powiększania tekstu, problemy z skopiowanie tekstu z dokumentu, brak dobrych narzędzi wyszukiwawczych w dokumentach. Pomimo tych wad, w digitalizacji format PDF jest dość popularny, jako format użytkowy (głównie do prezentowania na stronach WWW). Jest także możliwość użycia formatu dla przechowywania plików wzorcowych.

POSUMOWANIE

Jak widzimy w kwestii zapisu cyfrowego dominuje bezkonkurencyjnie format TIFF. Obecnie nie ma przesłanek aby jakiś inny format mógłby zastąpić obecne zapisy. Co nie znaczy że nie są prowadzone prace nad nowymi formatami graficznymi. Z jednym pretendentów mógłby być format FLIF po dopracowaniu[19]. Nawet jeśli pojawi się dopracowany format, który mógłby zastąpić inne znane nam formaty najważniejszą kwestia pozostaje jego promocja tj. wsparcie w programach graficznych, w systemach operacyjnych. Bez tego nawet najlepszy format przepadnie, zginie. Obecnie przewiduje się, że szybciej zostaną wydane nowe specyfikacje starych formatów.


[1] Digitalizacja piśmiennictwa. Pod redakcją D. Paradowskiego. Warszawa: BN, 2010, s. 27

[2] http://partners.adobe.com/public/developer/tiff/index.html

[3] Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod redakcją G. Płoszajskiego. Warszawa: BGPW, 2008, s. 40

[4] Standardy…, op. cit, s. 15

[5] Digitalizacja dla początkujących. Aleksander Trembowiecki. Warszawa: SBP, 2014, s. 76

[6] http://archiwalna.archiwa.gov.pl/images/stories/zarz_14-2015.pdf

[7]http://nimoz.pl/upload/Programy_ministra/OCDK/Katalogi_zalecenia_2015/Katalog_praktyk_i_standardow_digitalizacji_materialow_archiwalnych.pdf

[8] http://www.nina.gov.pl/programy-ministra/wieloletni-program-rz%C4%85dowy-kulturaplus/

[9] Standardy…, op. cit, s. 204

[10] https://pl.wikipedia.org/wiki/Tagged_Image_File_Format

[11] https://pl.wikipedia.org/wiki/RAW

[12] https://pl.wikipedia.org/wiki/JPEG_2000

[13] https://pl.wikipedia.org/wiki/JPEG

[14] http://www.djvu.com.pl/

[15] https://pl.wikipedia.org/wiki/Segmentacja_obrazu

[16] http://www.djvu.com.pl/download0.php

[17] https://pl.wikipedia.org/wiki/Biblioteka_cyfrowa

[18] https://pl.wikipedia.org/wiki/Portable_Document_Format

[19] http://pclab.pl/news66172.html




Brak komentarzy:

Prześlij komentarz

Prompty dla Archiwisty cz.1

Czas na nową serię „Prompty dla Archiwisty” , w której podzielę się pomysłami na wykorzystanie promptów w pracy archiwalnej. Znajdziesz tu z...