czwartek, 29 kwietnia 2021
Katalog dobrych praktyk - materiały archiwalne w archiwach kościelnych
Został przygotowany katalog dobrych praktyk dla historycznych archiwów kościelnych we współpracy przedstawicieli archiwów państwowych i kościelnych. Oczywiście jest rozdział o digitalizacji. Katalog można pobrać: https://bit.ly/3t2uxyL
Audycja radiowa o archiwizacji webu
Rozmowa z Marcinem Wilkowskim o archiwizacji webu :)
https://www.rdc.pl/podcast/z-innej-planety-w-archiwach-webu/
Seminarium audiowizualne FINA: Zarządzanie kolekcjami w archiwach
Felieton: Digitalizacja: Skanowanie
Wybraliśmy i przygotowaliśmy materiały do skanowania. Czas wrzucić akta na ruszt czyli na szybę :). Jednak przedtem musimy określić na jakim sprzęcie mamy skanować. Wybór zależy od wielu czynników tj. od budżetu, od zaplanowanego czasu, od rodzaju materiałów, które chcemy skanować. Tych kryteriów wyborów jest o wiele więcej. Skanery możemy podzielić ze względu na mechanizm działania tj.:
- skanery płaskie
- skanery planetarne
- skanery przelotowe
- skanery bębnowe
- aparaty cyfrowe
- aparaty skanujące
- skanery do mikroform
Każdy z tych skanerów ma swoje wady i zalety. Dla potrzeb wpisów przyjąłem, że mamy jednorodne, dobrej jakości materiały aktowe (powyżej 90% całego zasobu). Obiekty do skanowania można podzielić na transparentne czyli takie, które przepuszczają światło: negatywy, slajdy, klisze szklane i obiekty refleksyjne, które odbijające światło: rysunki, grafiki, karty pocztowe, mapy. Skupmy się na tym, który dla nas ze w/w skanerów będzie najlepszy. Dla naszych potrzeb wybieram skaner przelotowy (produkcyjny). W zależności od ilości zasobu tworzymy tzw. farmę skanerów mniejszą lub większą. Takie skanery powinny być szybkie, wydajne i dającą odpowiednią jakość. Przykładowe parametry: Rozdzielczość optyczna 600 dpi, dupleks, A4/A3, wydajność 100-150 stron na minutę, z dużym podajnikiem ADF, obsługa wiele formatów plików (w tym przypadku dla nas będą się liczyć JPG/TIFF/PDF/XLS). Nie będę sugerował konkretnej marki. Każdy musimy dopasować skaner do własnych wymagań lub odwrotnie... wymagania do skanera.
W literaturze przedmiotu przyjęto podział na tzw. kopie wzorcowe i kopie użytkowe. Dodatkowo mamy tzw. naturalne obiekty cyfrowe (born digital), które charakteryzują się różnymi parametrami oraz typami plików (xml, xls, word i wiele innych). W archiwach pliki wzorcowe są obiektami, które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania oryginału, nie podlegające obróbce graficznej. W Archiwach przyjęto, że głównym formatem wzorcowego zapisu cyfrowego jest format TIFF, bez kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te wymagania określamy właśnie jako wystarczające ilości informacji. W przypadku kopii użytkowych nie mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest stratny JPG lub hybrydowy PDF.
W biznesie nie potrzebujemy takiej jakości jak w archiwach historycznych chociażby ze względu na rodzaj i jakość materiałów aktowych (o czym wcześniej wspominałem). Parametry mogą być następujące: pliki TIFF, bez kompresji, rozdzielczość od 200 do 300 ppi (w zależności od rodzaju materiału) z głębią kolorów 8 bitów szarości lub 24 bity. Z tych TIFFów tworzymy pliki PDF jako pliki końcowe (archiwalne). Możemy też od razu nastawić się na produkcję plików PDF o odpowiedniej rozdzielczości i odpowiednio zabezpieczonych. Dodatkową zaletą plików PDF jest wydajna kompresja dużych plików. Mając odpowiednie narzędzia pliki z grafiką o wielkości 20 MB możemy skompresować i zmniejszyć czterokrotnie. Pliki PDF bardziej nadają się do przechowywania i przeszukiwania informacji niż pliki graficzne.
Algorytmy jakości skanowanych dokumentów
Generalnie w archiwach zabrania się jakiekolwiek ingerencji w skany (kopie wzorcowe). Natomiast kopiach użytkowych takie ingerencje są już dopuszczalne tj. najczęściej dodaje się znak wodny, ingeruje się w takie opcje jak poziomy, kontrasty czy krzywe. Użycie odpowiednich algorytmów zależy do jakości skanowanych dokumentów. W biznesie te dokumenty powinny najczęściej być dobrej jakości. W archiwach niestety często jakość materiałów archiwalnych odbiega od wzorcowego. Wynika to ze stanu zachowania dokumentów (kwaśny papier) oraz jakości sporządzanych ówcześnie dokumentów. Widać to bardzo dobrze na mikrofilmach (według mnie najlepsza forma digitalizacji), gdzie złe mikrofilmowanie powoduje, że późniejsze cyfrowe skanowanie nawet wraz algorytmami nie pomogą w odczytaniu czy zrozumieniu treści dokumentów.
Jakość dokumentów będzie poprawiana etapie produkcji lub postprodukcji skanów. W pierwszym kroku prócz formatu skanowania i rozdzielczości możemy ustawić tylko opcje takie jak jasność, kontrast, gamma - czyli niewiele. W drugim kroku mamy już do dyspozycji odpowiednie oprogramowanie. Tych opcji jest znacznie więcej tj. jasność, kontrast, krzywe, poziomy, balansy. Dodatkowo mamy do dyspozycji dziesiątki filtrów, które można użyć do plików graficznych czy wideo. Wiadomo, że tych dziesiątek filtrów będziemy mieli do dyspozycji tylko kilka. Wreszcie o ile dysponujemy dobrym budżetem możemy użyć algorytmy działające w oparciu o sieci neuronowe do poprawy jakości dokumentów np. EnhanceNet-PAT.
fot. pexel
środa, 28 kwietnia 2021
Raport SAP: Transformacja cyfrowa zapewnia odporność na kryzys
Jednym zdaniem... cyfryzacja lekiem na całe zło... tzn. dobra cyfryzacja lekiem na całe zło :)
Rhenus Data Office Polska na blockchaine
EZD idzie do archiwów państwowych a Rhenus Data Office Polska wprowadzi rozwiązania z zakresu zaufanego zarządzania dokumentami (Trusted Document Management - TDM) w oparciu o system blockchain firmy Billon. Brawo :)
EZD RP wkracza do sieci archiwalnej
EZD RP wkracza do sieci archiwalnej. Najpierw wersja testowa, a później ??? Ciekawym rozwiązaniem będzie integracja z ADE :)
Więcej przeczytacie na: Naczelna Dyrekcja Archiwów Państwowych - Archiwa Państwowe poszerzają współpracę z zespołem EZD RP
poniedziałek, 26 kwietnia 2021
Felieton: Digitalizacja: etapy/selekcja/przygotowania do skanowania
W sumie taki reuse wiedzy, której publikowałem na LinkediN. :) Dziś o digitalizacji. :)
Digitalizacja jest procesem złożonymi i co najważniejsze ciągłym. Standardowy proces digitalizacji możemy podzielić na 9 podprocesów takie jak:
- Selekcja materiałów
- Przygotowanie dokumentów do skanowania
- Skanowanie z użyciem algorytmów podwyższenia jakości dokumentów
- Rozpoznawanie tekstu (OCR)
- Metadane
- Tworzenie pliku przeszukiwanego archiwum (PDF)
- Eksport danych (zasobów dyskowych, systemów informatycznych)
- Indeksacja danych w wyszukiwarce pełnotekstowej
- Bezpieczeństwo teleinformatyczne
Selekcja materiałów
Zacznijmy od wyboru materiałów do digitalizacji. Sprawa wydaje się prosta. Mamy w zasadzie dwie drogi: albo skanujemy wszystko jak leci bez żadnej (lub prawie żadnej) analizy zbioru (digitalizacja masowa) albo wybieramy wg pewnych kryteriów pewne partie ze zbioru (digitalizacja selektywna) Tak mniej więcej odbywa się w archiwach. W biznesie te metody mają również zastosowanie. Wspomnieliśmy o kryteriach wyboru materiałów. Takie kryteria mamy kilka, a wszystkie one wpływają na kolejne etapy procesu digitalizacji:
- znaczenie dla kraju, regionu czy lokalnej społeczności
- liczba obiektów
- rodzaj i stan zachowania
- unikatowość
- wartość edukacyjna czy naukowa
- stan prawnoautorski
Przygotowanie dokumentów do skanowania
Materiały aktowe (nie tylko), które wybraliśmy do skanowania musimy przygotować odpowiednio do skanowania. To się wykonuje zwłaszcza w archiwach historycznych, gdzie spotykamy materiały o różnym stanie zachowania. W biznesie materiały główne finansowe teoretyczne powinny być lepszym stanie technicznym. Przygotowanie materiałów do skanowania składa się z takich podstawowych zabiegów jak:
- oczyszczanie
- usunięcie elementów metalowych
- rozprasowanie zagięć
- naprawa rozdarć
Zły stan staramy poprawić poprzez wyprasowanie (kauterem lub zwykłym żelazkiem), podklejeniem miejsc rozciętych specjalną taśmą - filmoplast typu P/R. Należy brać też pod uwagę warunki klimatyczne, w których się przechowuje materiały. Więcej o warunkach klimatycznych w magazynach można poczytać na starym blogu Archiwista24.
https://archiwista24.wordpress.com/2016/10/09/warunki-klimatyczne-w-magazynach/
piątek, 23 kwietnia 2021
Projekt ePADD +
Projekt ePADD + ma na celu zwiększenie możliwości archiwizacji wiadomości e-mail w archiwach, bibliotekach i muzeach.
Więcej na: https://library.stanford.edu/projects/epadd/about/eabcc-phase-4
Projekt AEOLIAN
Projekt AEOLIAN (Artificial Intelligence for Cultural Organisations) jest finansowany przez wspólny program US National Endowment for the Humanities (NEH) oraz Arts and Humanities Research Council (AHRC) w Wielkiej Brytanii. Partnerami projektu są m.in.: Biblioteka Narodowa Szkocji; Biblioteka Narodowa Walii; Harvard's Houghton Library. Projekt ma badać rolę AI w ułatwieniu dostępu cyfrowych i zdigitalizowanych zapisów kulturowych użytkownikom.
Więcej na:
https://www.aeolian-network.net/
https://www.aeolian-network.net/about/
czwartek, 22 kwietnia 2021
eARCHIVING IN ACTION
Bardzo interesujące webinary.
https://ec.europa.eu/cefdigital/wiki/display/CEFDIGITAL/eArchiving+in+action+webinars
Asystent ds. zarządzania dokumentacją [Zabrze, DROMA S.C.]
Rozumiem takie czynności jak archiwizację czy skanowanie ale nie rozumiem obowiązku drukowania maili...
https://www.praca.pl/asystent-ds-zarzadzania-dokumentacja_4482687.html
środa, 21 kwietnia 2021
wtorek, 20 kwietnia 2021
Zbiory przyrodnicze UAM w internecie: Amunatcoll
Ciekawe repozytorium tylko szkoda że nie jest dostępne publiczne... Dostępna jest tylko lista zdigitalizowanych kolekcji...
http://anc.amu.edu.pl/?fbclid=IwAR17-f1ljvK4ZW4m-bX3dhl4854r2buEoYOGWNrkiIQyhJ-03dlVBf7I1YI
poniedziałek, 19 kwietnia 2021
niedziela, 18 kwietnia 2021
Old maps online
Aktualnie przy mojej zdalnej pracy przy ręcznym OCR-erze przy wyszukiwaniu i sprawdzaniu miejscowości przydaje się ten serwis https://www.oldmapsonline.org/ :) Polecam :)
sobota, 17 kwietnia 2021
Narzędzie do plików PDF - sejda.com
Ciekawe narzędzie online do edycji plików PDF. Możemy łączyć lub rozbijać pliki, zapisywać PDFy do innych formatów. Mamy do dyspozycji wersję płatną i darmową.
piątek, 16 kwietnia 2021
Common Crawl
Grupa osób tworzy otwarte repozytoria danych przeszukiwania sieci, do których każdy może uzyskać dostęp i przeanalizować je.
czwartek, 15 kwietnia 2021
LinkedIn zhackowany
Dzięki metodzie tzw. scrappingu, która polega na masowym ściąganiu danych, które są dostępne publiczne, dane ponad 500 mln osób z LinkedIn trafiły do sieci w postaci jednej bazy danych. Czemu piszę o tym??? Piszę, ponieważ ta metoda scrappingu może być używana do archiwizacji webu.
poniedziałek, 12 kwietnia 2021
Your own personal internet archive
Serwis ArchiveBox umożliwia archiwizację Internetu w domowym zaciszu :)
Więcej sprawdzicie na: https://archivebox.io/
New Approaches to OCR for Early Printed Books
niedziela, 11 kwietnia 2021
Fundacja Filecoin wspomaga Internet Archive
Fundacja przekazała Internet Archive 50 000 filcoinów warte około 10 mln USD. Więcej na:
Narzędzie do modelowania dojrzałości konserwacji cyfrowej
Narzędzie do modelowania dojrzałości konserwacji cyfrowej od DPC do użycia :)
https://www.dpconline.org/digipres/implement-digipres/dpc-ram
Specjalista ds. zarządzania zasobami cyfrowymi [Warszawa,FINA]
Ciekawa oferta, jakiś czas czemu się pojawiła, teraz FINA powtarza :)
piątek, 9 kwietnia 2021
An introduction to the WARC file
Dla tych, którzy planują archiwizować Internet :) Wstęp o plikach WARC :)
https://archive-it.org/blog/post/the-stack-warc-file/
czwartek, 8 kwietnia 2021
Preserving images for the future by Hans van Dormolen
Arctic World Archive
Trochę o Arctic World Archive, który powstał w 2007 i obecnie zawiera 21 TB danych o całej ludzkości. Jak dla mnie trochę mało tych TB... powinno być więcej :)
The Pangloss Collection
Cyfrowe repozytorium, w którym znajdują się nagrania słabo udokumentowanych języków, a które w większości są obecnie zagrożone.
wtorek, 6 kwietnia 2021
Felieton: Archiwizacja webu
Repozytorium okładek paszportowych
Dzięki tej stronie https://www.passportindex.org/byColor.php możemy rozpoznać paszport po kolorze okładki.
Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku
W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora do obliczania rozdzielczości skanów. Prompt był następujący: stwór...
-
INFO: Coś się wreszcie ruszyło odnośne archiwizacji Internetu. :) Prelekcje będą w pierwszym dniu. W drugim dniu będą panele dyskusyjne tj....
-
INFO: W dniach 24-26/11/2021 odbędzie się w Toruniu ogólnopolska konferencja dla osób odpowiedzialnych za obieg informacji, kompletowanie a...
-
INFO: Pięć znaków ostrzegawczych, które mówią nam, że potrzebujemy systemu DAM :) https://www.widen.com/blog/five-telltale-signs-that-you-ne...