Poważny temat :)) Generalnie artykuł znalazł się w czasopiśmie More Maiorum.:)) Czemu sztuczny tiff??? W gwarze swojej określam pliki cyfrowe zrobione niezgodne z wszelkimi zasadami... Krótko omówię zagadnienie formatów cyfrowych stosowanych w digitalizacji w archiwach. Ograniczę się tylko do formatów graficznych, oraz spróbuję zastanowić się nad przyszłością.
DEFINICJE...
Głównym
celem digitalizacji jest ochrona cennych zbiorów, a następnie udostępnienie ich
w wersji cyfrowej dla szerokiego grona użytkowników[1]. Te obiekty cyfrowe w naszej literaturze przedmiotu
zostały podzielone na kopie wzorcowe
i kopie użytkowe, które mogą
występować pod postacią plików graficznych lub audiowizualnych zapisywanych we
właściwych formatach.
Kopia wzorcowa (kopia-matka, kopie
źródłowe, kopie zabezpieczające, dane wzorcowe, master file) są obiektami,
które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania
oryginału, nie podlegające obróbce graficznej… Ale co znaczy wystarczające
ilości informacji ???. Przyjęto, że głównym formatem wzorcowego zapisu
cyfrowego jest format TIFF 6.0[2], bez
kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału,
który jest skanowany) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te
wymagania określamy właśnie jako wystarczające ilości informacji. W przypadku kopii użytkowych (kopie pochodne) nie
mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest
jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest
stratny JPG. Takie kopie najczęściej sporządza się z plików wzorcowych.
Nazewnictwo jest różnorodne. W Standardach w procesie digitalizacji obiektów
dziedzictwa kulturowego wymienia się obiekty cyfrowe wtórne tj. kopie wzorcowe (o dużej dokładności i
wierności odtwarzania) oraz użytkowe
(pochodne – o mniejszej dokładności, przeznaczone do udostępniania w sieci)[3] a także naturalne
obiekty cyfrowe (born digital)[4]. Aleksander Trembowiecki swej „Digitalizacji
dla początkujących” podzielił formaty na archiwalne
(pliki matrycowe, matryce, mastery) i reprezentacyjne,
które są z kolei podzielona na formaty graficzne i formaty hybrydowe[5].
W
ARCHIWACH...
Głównym
dokumentem określającym politykę digitalizacyjną jest zarządzenie Nr. 14
Naczelnego Dyrektora Archiwów Państwowych z dnia 31 sierpnia 2015 roku w
sprawie digitalizacji zasobu archiwalnego archiwów państwowych[6]. Kopia wzorcowa według zarządzenia to kopia
zapisana w formatach bezstratnych bez kompresji lub z kompresją bezstratną.
Takie pliki nie mogą być poddawane obróbkom graficznym (prócz kadrowania,
mającego na celu usunięcie tła wokół obiektu skanowanego). Natomiast kopie użytkowe
wykonuje się z kopii wzorcowych,
które różną się od nich mniejszą rozdzielczością, innym nazewnictwem,
zastosowaną obróbką graficzną np. dodanie znaków wodnych. Mogą być też
poddawanie procesom OCR. W załączniku tegoż Zarządzenia podano parametry
wymagań dotyczący kopii wzorcowych. Rozdzielczość skanowania ze względu na
rodzaj dokumentów wynosi od 300 do 600 ppi, format zapisu TIFF 6.0 bez
kompresji, głębia kolorów 8-bitowa skala szarości i 24-bitowa RGB. W skanowaniu
mikrofilmów dopuszcza się format JPG (100% jakości) ze względu na spowolnienie
pracy skanera trakcie zapisu w formacie TIFF. Kolejnym dokumentem jest Katalog praktyk i standardów digitalizacji
materiałów archiwalnych[7],
który jest praktycznie rozbudowaną wersją zarządzenia. Podane są te same
definicje oraz te same założenia digitalizacyjne. Katalog ma kilka wersji: dla materiałów archiwalnych,
bibliotecznych, muzealnych i audiowizualnych[8]
Ciekawym rozwiązaniem jest podział dokumentów ze względu na typ dokumentu. Taki podział pojawił się w Standardach… gdzie rodzaje materiałów przeznaczonych do digitalizacji podzielono na siedem grup (od A do G)[9]. Wszystkie te grupy mają określone wymagania minimalne i zalecane pod kątem formatu, rozdzielczości itp.. Jednak ta propozycja nie przyjęła się. Podział ten ma swoje lata więc należałoby ponownie przeprowadzić analizę zasadności takich, a nie innych podanych wymagań.
FORMATY
ZAPISU
Formaty
zapisu można podzielić generalnie na dwie grupy: wzorcowa (TIFF, RAW, JPG2000),
użytkowa (JPG, DjVu, PDF).
TIFF
Format
TIFF został opracowany w 1986 roku i służy do zapisywania grafiki rastrowej[10].
Praktycznie format ten zmonopolizował w kwestii zapisu plików przez skanery.
TIFF pozwala zapisywanie
dokumentów wielostronicowych, pozwala też na zapisywanie
obrazów stworzonych w skali szarości oraz w trybach koloru. Obsługuje 64
bitową głębię kolorów. Może
przechowywać ścieżki i kanały alfa, profile koloru, komentarze tekstowe. Do
wyboru jest kompresja bezstratna (LZW lub CCITT T.6), kompresja stratna lub bez
kompresji. Obecnie obowiązuje standard TIFF 6.0. Jedyną wadą tego formatu jest
duży rozmiar plików.
RAW
Format
ten głownie występuję w fotografii cyfrowej[11]. Plik
RAW w odróżnieniu do np. TIFF zawiera surowe dane z matrycy światłoczułej. Jest
uważany za cyfrowy odpowiednik negatywu. Format ten charakteryzuje się dużym
zakresem tonalnym, brakiem kompresji stratnej i zawiera zazwyczaj 12 lub 14
bitów na piksel. Obsługuje kolory w trybie RGB, CMYK
i odcienie szarości. Problemem jest to, że obecnie każdy producent
aparatów stosuje własny, najczęściej niezgodny z innymi, format plików typu
RAW. Także wiele przeglądarek wymaga instalacji odpowiednich dodatków aby móc
przeglądać ten format, już nie mówiąc o obróbce graficznej. W digitalizacji
format ten jest nieczęsto stosowany.
JPG2000
Stosunkowo
młody i stosunkowo mało popularny format[12]. Generalnie
jest to nowsza wersja JPG z kompresją bezstratną. Zaletą formatu jest lepsza jakość obrazu przy tym samym
stopniu kompresji. Inną zaletą jest mała wielkość plików w porównaniu do plików
TIFF czy RAW. W digitalizacji ten format jest mało popularny ze względu na brak
wsparcia w programach graficznych.
JPG
Standard
JPEG (Joint
Photographic Experts Group) jest bez wątpienia najpopularniejszy format grafiki
rastrowej używany w fotografii cyfrowej, na stronach WWW itp.. Początki sięgają
1983 roku. Publikacja standardu nastąpiła w 1991[13] roku.
Plik JPG jest zapisywany w trybie RGB po 8 bitów na kolor. W JPG możemy
zastosować pełną gamę kolorów. Mamy możliwość też ustalenia stopnia kompresji.
Wielką zaletą jest niewielki rozmiar oraz wsparcie przez wszystkie programy
graficzne. Jest to format stratny (wersją bezstratną jest wspomniany wyżej
format JPG200). W digitalizacji format ten używa się głównie w tworzeniu kopii
użytkowych na potrzeby własne jak i dla użytkowników. Taka delikatniejsza kopia cyfrowa :)).
DjVu
Jest
to bardzo ciekawy format graficzny. Można go nazwać formatem hybrydowym mającym
w sobie oddzielnie tekst i grafikę[14]. Format
ten jest oparty
na metodzie segmentacji obrazu[15].
Polega to na rozdzieleniu obrazów na odrębne warstwy i poddaniu ich odrębnej
optymalizacji i kompresji. Wyróżniamy zazwyczaj dwie warstwy - warstwę
tła i treści. Aby taki plik był bardziej funkcjonalny dodaje też trzecią
warstwę - OCR zawierający rzeczywisty tekst.
Dokumenty w formacie DjVu ogląda się najczęściej za pomocą przeglądarki
internetowej uzupełnionej o odpowiednią wtyczkę. Można też stosować odrębne
przeglądarki plików. Zarówno wtyczki, jak i przeglądarki dostępne są darmowo[16]. Bardzo
ważną cechą plików DjVu są bardzo małe rozmiary, nawet mogą być 1000 razy
mniejsze niż standartowy TIFF. Mały rozmiar powoduje, że pliki mogą być
szybciej przesyłane, szybciej otwierane. Jest to format popularny głównie w
bibliotekach cyfrowych[17].
PDF
PDF
(Portable Document Format) został stworzony przez firmę Adobe i jest formatem
hybrydowym służący do prezentacji tekstu jak i grafiki[18]. Jest
to popularny format mający duże wsparcie w postaci wielu programów do
przeglądania, do edycji, darmowych jak i płatnych. Do zalet plików PDF można
zaliczyć: możliwość umieszczenia w pliku grafiki rastrowej, wektorowej,
akapitowego tekstu, tworzenie zakładek, hiperłączy, dodanie warstwy OCR. Ważną
kwestią jest bezpieczeństwo. Jest możliwość szyfrowania dokumentów PDF i
możliwość ograniczenia czynności, które
nie mogą być dokonywane przez użytkownika. Do wad należy zaliczyć brak
możliwości powiększania tekstu, problemy z skopiowanie tekstu z dokumentu, brak
dobrych narzędzi wyszukiwawczych w dokumentach. Pomimo tych wad, w digitalizacji
format PDF jest dość popularny, jako format użytkowy (głównie do prezentowania
na stronach WWW). Jest także możliwość użycia formatu dla przechowywania plików
wzorcowych.
POSUMOWANIE
Jak widzimy w kwestii zapisu cyfrowego dominuje bezkonkurencyjnie format TIFF. Obecnie nie ma przesłanek aby jakiś inny format mógłby zastąpić obecne zapisy. Co nie znaczy że nie są prowadzone prace nad nowymi formatami graficznymi. Z jednym pretendentów mógłby być format FLIF po dopracowaniu[19]. Nawet jeśli pojawi się dopracowany format, który mógłby zastąpić inne znane nam formaty najważniejszą kwestia pozostaje jego promocja tj. wsparcie w programach graficznych, w systemach operacyjnych. Bez tego nawet najlepszy format przepadnie, zginie. Obecnie przewiduje się, że szybciej zostaną wydane nowe specyfikacje starych formatów.
[1] Digitalizacja piśmiennictwa. Pod redakcją D. Paradowskiego. Warszawa: BN, 2010, s. 27
[2] http://partners.adobe.com/public/developer/tiff/index.html
[3] Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod redakcją G. Płoszajskiego. Warszawa: BGPW, 2008, s. 40
[4] Standardy…, op. cit, s. 15
[5] Digitalizacja dla początkujących. Aleksander Trembowiecki. Warszawa: SBP, 2014, s. 76
[6] http://archiwalna.archiwa.gov.pl/images/stories/zarz_14-2015.pdf
[7]http://nimoz.pl/upload/Programy_ministra/OCDK/Katalogi_zalecenia_2015/Katalog_praktyk_i_standardow_digitalizacji_materialow_archiwalnych.pdf
[8] http://www.nina.gov.pl/programy-ministra/wieloletni-program-rz%C4%85dowy-kulturaplus/
[9] Standardy…, op. cit, s. 204
[10] https://pl.wikipedia.org/wiki/Tagged_Image_File_Format
[11] https://pl.wikipedia.org/wiki/RAW
[12] https://pl.wikipedia.org/wiki/JPEG_2000
[13] https://pl.wikipedia.org/wiki/JPEG
[14] http://www.djvu.com.pl/
[15] https://pl.wikipedia.org/wiki/Segmentacja_obrazu
[16] http://www.djvu.com.pl/download0.php
[17] https://pl.wikipedia.org/wiki/Biblioteka_cyfrowa
[18] https://pl.wikipedia.org/wiki/Portable_Document_Format
Brak komentarzy:
Prześlij komentarz