CYFROWE ARCHI#WA: Felieton: Archiwizacja webu

Archiwizacja webu u nas jest jeszcze w powijakach. Nie wiadomo kto i co i jak ma archiwizować te medium (chociaż literatura nt. jest bardzo bogata). Mamy przecież bibliotekarzy i archiwistów. Kto z nich???. Mamy archiwizować wszystko czy tylko część Internetu (np domena gov)???. Jeśli wszystko mamy archiwizować, co będzie "prawem do zapominania". Należy pamiętać, że strony WWW żyją dosyć krótko. Kolejnym problemem jest archiwizacja social media.

Jak mamy archiwizować???. Mamy przecież do dyspozycji specjalne roboty określanych mianem webcrawlerów lub harvesterów. Jednak jak na mój gust screeny tworzone przez Internet Archive nie są najlepszym sposobem z powodu małej głębi informacyjnej.

Dla mnie archiwizacji webu polega na zrobieniu kopii zapasowej na serwerze (backup) danej strony WWW. Ostateczną kopię archiwalna uznaję ostatnią kopię po zamknięciu starej witryny. Tak jest po archiwalnemu, po bożemu. Jednak są i wady m.in.. koszty przechowywania takich backupów. Metoda też nie pokaże zachodzących zmian w danym okresie na wybranej stronie WWW.

Ostatnio na seminarium IFAR http://www.ifar.pl/index.php w dyskusji podano wiele ciekawych rozwiązań. Niewątpliwie najlepszym wyjściem obecnie będzie archiwizacja wszystkich danych będących w domenie. Nie jest ważna jak wyglądała strona (wystarczy screen) ważne są tylko dane. Tak jak w digitalizacji biznesowej nieważny jest format czy parametry skanów, ważne są dane. Wygląd faktury nie jest istoty, tylko dane w niej zawarte. Ja archiwizuje zasoby WWW na swój sposób. Używam czasami program httrack i neodownlader (częściej, do grafiki).

Przejdźmy teraz do w/w programów

Httrack

Httrack jest prostym i fajnym programem. W łatwy sposób można zdefiniować nasze cele, ustawić parametry, ścieżki zapisu. Możemy ściągać kilka stron. Ważne są dwie opcje: DZIAŁANIE tj. wybieramy co chcemy np. pobrać stronę lub ją uaktualnić oraz PREFERENCJE I OPCJE LUSTRA. W tym przypadku ustawiamy głębokość pobierania, jakie pliki graficzne chcemy pobrać, a jakie nie chcemy, testowanie linków, jaki ma być typ struktury pobieranych stron, tworzenie archiwum maili, tworzenie indeksów, ustawianie proxy itp..

Neodownlader

Drugi program nie służy co prawda do ściągania całych stron www ale wszelkich plików oraz grafik na danej stronie i ewentualnie znajdujących się na niej innych odnośnikach, do innych strony W tym przypadku mamy już gotowe projekty, które możemy ściągać np. grafikę Luisa Royo. Oczywiście możemy własny projekt zacząć. Wpisujemy link i ewentualne dane dostępowe (login i hasła). Wybieramy co chcemy ściągać tj. pliki graficzne, pliki audio-wideo, pliki ZIP itp.. W ustawieniach danego projektu ustalamy głębokość sciągania, jakie konkretne pliki (rozszerzenia) chcemy a jakich nie, a także wielkość plików. Neodownlader przy ściąganiu tworzy strukturę folderów, która odzwierciedla daną stronę WWW. Często ta struktura jest dziwna tj. masa pustych katalogów i podkatalogów.

Obecnie wybranie dane/informacje zapisuje do plików PDF (wirtualna drukarka lub generator plików PDF znajdujących się na stronie). Te pliki nie są idealne, czasami są niekopiowalne na inne formaty, brakuje często metadanych, które później sam uzupełniam te podstawowe tj. data utworzenia treści, tytuł. Jednak to mi w zasadzie wystarczy ponieważ archiwizuje tylko to co jest mi potrzebne.

wtorek, 6 kwietnia 2021

Felieton: Archiwizacja webu

Brak komentarzy:

Prześlij komentarz

Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku

CYFROWE ARCHI#WA