czwartek, 29 kwietnia 2021

Seria webinarów Digital Preservation Futures

https://www.libnova.com/libnova-takes-part-in-the-digital-preservation-futures-webinar-series-organized-by-the-dpc/

Katalog dobrych praktyk - materiały archiwalne w archiwach kościelnych

Został przygotowany katalog dobrych praktyk dla historycznych archiwów kościelnych we współpracy przedstawicieli archiwów państwowych i kościelnych. Oczywiście jest rozdział o digitalizacji. Katalog można pobrać: https://bit.ly/3t2uxyL

Projekt EnrichEuropeana+

Bardzo ciekawy projekt Projekt EnrichEuropeana+.

Więcej o projekcie tu: 



Audycja radiowa o archiwizacji webu

Rozmowa z Marcinem Wilkowskim o archiwizacji webu :)

https://www.rdc.pl/podcast/z-innej-planety-w-archiwach-webu/

Seminarium audiowizualne FINA: Zarządzanie kolekcjami w archiwach

Bardzo ciekawe seminarium raz jeszcze. Wszystkich zainteresowanych zapraszam 7 maja na Zoomie. Więcej na https://www.facebook.com/events/1290035181391475

Felieton: Digitalizacja: Skanowanie

Wybraliśmy i przygotowaliśmy materiały do skanowania. Czas wrzucić akta na ruszt czyli na szybę :). Jednak przedtem musimy określić na jakim sprzęcie mamy skanować. Wybór zależy od wielu czynników tj. od budżetu, od zaplanowanego czasu, od rodzaju materiałów, które chcemy skanować. Tych kryteriów wyborów jest o wiele więcej. Skanery możemy podzielić ze względu na mechanizm działania tj.:

  • skanery płaskie
  • skanery planetarne
  • skanery przelotowe
  • skanery bębnowe
  • aparaty cyfrowe
  • aparaty skanujące
  • skanery do mikroform

Każdy z tych skanerów ma swoje wady i zalety. Dla potrzeb wpisów przyjąłem, że mamy jednorodne, dobrej jakości materiały aktowe (powyżej 90% całego zasobu). Obiekty do skanowania można podzielić na transparentne czyli takie, które przepuszczają światło: negatywy, slajdy, klisze szklane i obiekty refleksyjne, które odbijające światło: rysunki, grafiki, karty pocztowe, mapy. Skupmy się na tym, który dla nas ze w/w skanerów będzie najlepszy. Dla naszych potrzeb wybieram skaner przelotowy (produkcyjny). W zależności od ilości zasobu tworzymy tzw. farmę skanerów mniejszą lub większą. Takie skanery powinny być szybkie, wydajne i dającą odpowiednią jakość. Przykładowe parametry: Rozdzielczość optyczna 600 dpi, dupleks, A4/A3, wydajność 100-150 stron na minutę, z dużym podajnikiem ADF, obsługa wiele formatów plików (w tym przypadku dla nas będą się liczyć JPG/TIFF/PDF/XLS). Nie będę sugerował konkretnej marki. Każdy musimy dopasować skaner do własnych wymagań lub odwrotnie... wymagania do skanera.

W literaturze przedmiotu przyjęto podział na tzw. kopie wzorcowe i kopie użytkowe. Dodatkowo mamy tzw. naturalne obiekty cyfrowe (born digital), które charakteryzują się różnymi parametrami oraz typami plików (xml, xls, word i wiele innych). W archiwach pliki wzorcowe są obiektami, które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania oryginału, nie podlegające obróbce graficznej. W Archiwach przyjęto, że głównym formatem wzorcowego zapisu cyfrowego jest format TIFF, bez kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te wymagania określamy właśnie jako wystarczające ilości informacji. W przypadku kopii użytkowych nie mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest stratny JPG lub hybrydowy PDF.

W biznesie nie potrzebujemy takiej jakości jak w archiwach historycznych chociażby ze względu na rodzaj i jakość materiałów aktowych (o czym wcześniej wspominałem). Parametry mogą być następujące: pliki TIFF, bez kompresji, rozdzielczość od 200 do 300 ppi (w zależności od rodzaju materiału) z głębią kolorów 8 bitów szarości lub 24 bity. Z tych TIFFów tworzymy pliki PDF jako pliki końcowe (archiwalne). Możemy też od razu nastawić się na produkcję plików PDF o odpowiedniej rozdzielczości i odpowiednio zabezpieczonych. Dodatkową zaletą plików PDF jest wydajna kompresja dużych plików. Mając odpowiednie narzędzia pliki z grafiką o wielkości 20 MB możemy skompresować i zmniejszyć czterokrotnie. Pliki PDF bardziej nadają się do przechowywania i przeszukiwania informacji niż pliki graficzne.

Algorytmy jakości skanowanych dokumentów

Generalnie w archiwach zabrania się jakiekolwiek ingerencji w skany (kopie wzorcowe). Natomiast kopiach użytkowych takie ingerencje są już dopuszczalne tj. najczęściej dodaje się znak wodny, ingeruje się w takie opcje jak poziomy, kontrasty czy krzywe. Użycie odpowiednich algorytmów zależy do jakości skanowanych dokumentów. W biznesie te dokumenty powinny najczęściej być dobrej jakości. W archiwach niestety często jakość materiałów archiwalnych odbiega od wzorcowego. Wynika to ze stanu zachowania dokumentów (kwaśny papier) oraz jakości sporządzanych ówcześnie dokumentów. Widać to bardzo dobrze na mikrofilmach (według mnie najlepsza forma digitalizacji), gdzie złe mikrofilmowanie powoduje, że późniejsze cyfrowe skanowanie nawet wraz algorytmami nie pomogą w odczytaniu czy zrozumieniu treści dokumentów. 

Jakość dokumentów będzie poprawiana etapie produkcji lub postprodukcji skanów. W pierwszym kroku prócz formatu skanowania i rozdzielczości możemy ustawić tylko opcje takie jak jasność, kontrast, gamma - czyli niewiele. W drugim kroku mamy już do dyspozycji odpowiednie oprogramowanie. Tych opcji jest znacznie więcej tj. jasność, kontrast, krzywe, poziomy, balansy. Dodatkowo mamy do dyspozycji dziesiątki filtrów, które można użyć do plików graficznych czy wideo. Wiadomo, że tych dziesiątek filtrów będziemy mieli do dyspozycji tylko kilka. Wreszcie o ile dysponujemy dobrym budżetem możemy użyć algorytmy działające w oparciu o sieci neuronowe do poprawy jakości dokumentów np. EnhanceNet-PAT.


fot. pexel



środa, 28 kwietnia 2021

Raport SAP: Transformacja cyfrowa zapewnia odporność na kryzys

Jednym zdaniem... cyfryzacja lekiem na całe zło... tzn. dobra cyfryzacja lekiem na całe zło :)

https://www.wnp.pl/tech/badanie-transformacja-cyfrowa-zapewnia-odpornosc-na-kryzys,464956.html?utm_medium=email&utm_source=getresponse&utm_term=kontakty-crm&utm_content=Newsletter+biznes+%232&utm_campaign=Newsletter+biznes+%232

Rhenus Data Office Polska na blockchaine

EZD idzie do archiwów państwowych a  Rhenus Data Office Polska  wprowadzi  rozwiązania z zakresu zaufanego zarządzania dokumentami (Trusted Document Management - TDM) w oparciu o system blockchain firmy Billon. Brawo :)

EZD RP wkracza do sieci archiwalnej

EZD RP wkracza do sieci archiwalnej. Najpierw wersja testowa, a później ??? Ciekawym rozwiązaniem będzie integracja z ADE :)

Więcej przeczytacie na: Naczelna Dyrekcja Archiwów Państwowych - Archiwa Państwowe poszerzają współpracę z zespołem EZD RP

Manager, Implementation Digital Asset [Warszawa, Standard Chartered Bank]

https://bit.ly/32Sv2AX

poniedziałek, 26 kwietnia 2021

MANAGER w dziale Księgowości AP Indirect [Piaseczno, Auchan]

https://pl.indeed.com/poka%C5%BCprac%C4%99?jk=f2cacefdb72214cc&q=archiwum+elektroniczne&l=Warszawa,+mazowieckie&tk=1f4168lumufho800&from=ja&alid=565f6969e4b00979328d7298&utm_campaign=job_alerts&utm_medium=email&utm_source=jobseeker_emails&rgtk=1f4168lumufho800

Felieton: Digitalizacja: etapy/selekcja/przygotowania do skanowania

W sumie taki reuse wiedzy, której publikowałem na LinkediN. :) Dziś o digitalizacji. :)

Digitalizacja jest procesem złożonymi i co najważniejsze ciągłym. Standardowy proces digitalizacji możemy podzielić na 9 podprocesów takie jak:

  1. Selekcja materiałów
  2. Przygotowanie dokumentów do skanowania
  3. Skanowanie z użyciem algorytmów podwyższenia jakości dokumentów
  4. Rozpoznawanie tekstu (OCR)
  5. Metadane
  6. Tworzenie pliku przeszukiwanego archiwum (PDF)
  7. Eksport danych (zasobów dyskowych, systemów informatycznych)
  8. Indeksacja danych w wyszukiwarce pełnotekstowej
  9. Bezpieczeństwo teleinformatyczne

Selekcja materiałów

Zacznijmy od wyboru materiałów do digitalizacji. Sprawa wydaje się prosta. Mamy w zasadzie dwie drogi: albo skanujemy wszystko jak leci bez żadnej (lub prawie żadnej) analizy zbioru (digitalizacja masowa) albo wybieramy wg pewnych kryteriów pewne partie ze zbioru (digitalizacja selektywna) Tak mniej więcej odbywa się w archiwach. W biznesie te metody mają również zastosowanie. Wspomnieliśmy o kryteriach wyboru materiałów. Takie kryteria mamy kilka, a wszystkie one wpływają na kolejne etapy procesu digitalizacji: 

  1. znaczenie dla kraju, regionu czy lokalnej społeczności  
  2. liczba obiektów
  3. rodzaj i stan zachowania
  4. unikatowość
  5. wartość edukacyjna czy naukowa
  6. stan prawnoautorski

Przygotowanie dokumentów do skanowania

Materiały aktowe (nie tylko), które wybraliśmy do skanowania musimy przygotować odpowiednio do skanowania. To się wykonuje zwłaszcza w archiwach historycznych, gdzie spotykamy materiały o różnym stanie zachowania. W biznesie materiały główne finansowe teoretyczne powinny być lepszym stanie technicznym. Przygotowanie materiałów do skanowania składa się z takich podstawowych zabiegów jak:

  1. oczyszczanie
  2. usunięcie elementów metalowych
  3. rozprasowanie zagięć
  4. naprawa rozdarć

Zły stan staramy poprawić poprzez wyprasowanie (kauterem lub zwykłym żelazkiem), podklejeniem miejsc rozciętych specjalną taśmą - filmoplast typu P/R. Należy brać też pod uwagę warunki  klimatyczne, w których się przechowuje materiały. Więcej o warunkach klimatycznych w magazynach można poczytać na starym blogu Archiwista24.

https://archiwista24.wordpress.com/2016/10/09/warunki-klimatyczne-w-magazynach/



fot. pixabay


piątek, 23 kwietnia 2021

Projekt ePADD +

Projekt ePADD + ma na celu  zwiększenie możliwości archiwizacji wiadomości e-mail w archiwach, bibliotekach i muzeach. 

Więcej na: https://library.stanford.edu/projects/epadd/about/eabcc-phase-4

Europeana Pro: Introducing our image classification pilot

https://pro.europeana.eu/post/introducing-our-image-classification-pilot

Projekt AEOLIAN

Projekt AEOLIAN (Artificial Intelligence for Cultural Organisations) jest finansowany przez wspólny program US National Endowment for the Humanities (NEH) oraz Arts and Humanities Research Council (AHRC) w Wielkiej Brytanii. Partnerami projektu są m.in.:  Biblioteka Narodowa Szkocji; Biblioteka Narodowa Walii; Harvard's Houghton Library. Projekt ma badać rolę AI w ułatwieniu dostępu cyfrowych i zdigitalizowanych zapisów kulturowych użytkownikom. 

Więcej na: 

https://www.aeolian-network.net/

https://www.aeolian-network.net/about/


niedziela, 18 kwietnia 2021

sobota, 17 kwietnia 2021

Narzędzie do plików PDF - sejda.com

Ciekawe narzędzie online do edycji plików PDF. Możemy łączyć lub rozbijać pliki, zapisywać PDFy do innych formatów. Mamy do dyspozycji wersję płatną i darmową.

https://www.sejda.com/ 

piątek, 16 kwietnia 2021

czwartek, 15 kwietnia 2021

LinkedIn zhackowany

Dzięki metodzie tzw. scrappingu, która polega na masowym ściąganiu danych, które są dostępne publiczne, dane ponad 500 mln osób z LinkedIn trafiły do sieci w postaci jednej bazy danych. Czemu piszę o tym??? Piszę, ponieważ ta metoda scrappingu może być używana do archiwizacji webu.



LinkedIn, Public domain, via Wikimedia Commons


Wirtualne Laboratorium Transkrypcji

 Bardzo przydatne narzędzie :)

WLT - Wirtualne Laboratorium Transkrypcji 

niedziela, 11 kwietnia 2021

czwartek, 8 kwietnia 2021

Preserving images for the future by Hans van Dormolen

Krótkie wideo Hansa van Dormolen, kóry przedstawia przegląd standardów obrazowania i  archiwizowania.

Arctic World Archive

Trochę o Arctic World Archive, który powstał w 2007 i obecnie zawiera 21 TB danych o całej ludzkości. Jak dla mnie trochę mało tych TB... powinno być więcej :)

https://www.freethink.com/videos/arctic-world-archive?utm_source=Corporate+Newsletter&utm_campaign=ffe9e47a31-Imaging_Archiving_November_17_COPY_18&utm_medium=email&utm_term=0_3b149b90de-ffe9e47a31-304584753&goal=0_3b149b90de-ffe9e47a31-304584753



The Pangloss Collection

Cyfrowe repozytorium, w którym znajdują się nagrania słabo udokumentowanych języków, a które w większości są obecnie zagrożone. 

https://pangloss.cnrs.fr/?lang=en

Internet Archive na poważnie

Artykuł porządkujący wiedzę o Internet Archive: 

wtorek, 6 kwietnia 2021

Narzędzie do ekstrakcji danych ze stron WWW

https://automatio.co/

Felieton: Archiwizacja webu

Archiwizacja webu u nas jest jeszcze w powijakach. Nie wiadomo kto i co i jak ma archiwizować te medium (chociaż literatura nt. jest bardzo bogata). Mamy przecież bibliotekarzy i archiwistów. Kto z nich???. Mamy archiwizować wszystko czy tylko część Internetu (np domena gov)???. Jeśli wszystko mamy archiwizować, co będzie "prawem do zapominania". Należy pamiętać, że strony WWW żyją dosyć krótko. Kolejnym problemem jest archiwizacja social media.

Jak mamy archiwizować???. Mamy przecież do dyspozycji specjalne roboty określanych mianem webcrawlerów lub harvesterów. Jednak jak na mój gust screeny tworzone przez Internet Archive nie są najlepszym sposobem z powodu małej głębi informacyjnej. 

Dla mnie archiwizacji webu polega na zrobieniu kopii zapasowej na serwerze (backup) danej strony WWW. Ostateczną kopię archiwalna uznaję ostatnią kopię po zamknięciu starej witryny. Tak jest po archiwalnemu, po bożemu. Jednak są i wady m.in.. koszty przechowywania takich backupów. Metoda też nie pokaże zachodzących zmian w danym okresie na wybranej stronie WWW. 

Ostatnio na seminarium IFAR http://www.ifar.pl/index.php w dyskusji podano wiele ciekawych rozwiązań. Niewątpliwie najlepszym wyjściem obecnie będzie archiwizacja wszystkich danych będących w domenie. Nie jest ważna jak wyglądała strona (wystarczy screen)  ważne są tylko  dane. Tak jak w digitalizacji biznesowej nieważny jest format czy parametry skanów, ważne są dane. Wygląd faktury nie jest istoty, tylko dane w niej zawarte. Ja archiwizuje zasoby WWW na swój sposób. Używam czasami program httrack i neodownlader (częściej, do grafiki). 

Przejdźmy teraz do w/w programów
 
Httrack 


Httrack jest prostym i fajnym programem. W łatwy sposób można zdefiniować nasze cele, ustawić parametry, ścieżki zapisu. Możemy ściągać kilka stron. Ważne są dwie opcje: DZIAŁANIE tj. wybieramy co chcemy np. pobrać stronę lub ją uaktualnić  oraz PREFERENCJE I OPCJE LUSTRA. W tym przypadku ustawiamy głębokość pobierania, jakie pliki graficzne chcemy pobrać, a jakie nie chcemy, testowanie linków, jaki ma być typ struktury pobieranych stron, tworzenie archiwum maili, tworzenie indeksów, ustawianie proxy itp..






Neodownlader

Drugi program nie służy co prawda do ściągania całych stron www ale wszelkich plików oraz grafik na danej stronie i ewentualnie znajdujących się na niej innych odnośnikach, do innych strony W tym przypadku mamy już gotowe projekty, które możemy ściągać np. grafikę Luisa Royo. Oczywiście możemy własny projekt zacząć. Wpisujemy link i ewentualne dane dostępowe (login i hasła). Wybieramy co chcemy ściągać tj. pliki graficzne, pliki audio-wideo, pliki ZIP itp.. W ustawieniach danego projektu ustalamy głębokość sciągania, jakie konkretne pliki (rozszerzenia) chcemy a jakich nie, a także wielkość plików. Neodownlader przy ściąganiu tworzy strukturę folderów, która odzwierciedla daną stronę WWW. Często ta struktura jest  dziwna tj. masa pustych  katalogów i podkatalogów. 





Obecnie wybranie dane/informacje zapisuje do plików PDF (wirtualna drukarka lub generator plików PDF znajdujących się na stronie). Te pliki nie są idealne, czasami są niekopiowalne na inne formaty, brakuje często metadanych, które później sam uzupełniam te podstawowe tj. data utworzenia treści, tytuł.  Jednak to mi w zasadzie wystarczy ponieważ archiwizuje tylko to co jest mi potrzebne.

EXPLORE THE BAYEUX TAPESTRY ONLINE

https://www.bayeuxmuseum.com/en/the-bayeux-tapestry/discover-the-bayeux-tapestry/explore-online/#explore

Repozytorium okładek paszportowych

Dzięki tej stronie https://www.passportindex.org/byColor.php możemy rozpoznać paszport po kolorze okładki. 

Określenie celów wdrożenia systemu DMS

Przed wdrożeniem systemu zarządzania dokumentacją (DMS) , kluczowe jest określenie celów, które organizacja chce osiągnąć za jego pomocą. Te...