INFO: To już 25 lat Internet Archive, piękna rocznica :)
Reflections as the Internet Archive turns 25 - Internet Archive Blogs
INFO: To już 25 lat Internet Archive, piękna rocznica :)
Reflections as the Internet Archive turns 25 - Internet Archive Blogs
INFO: Artykuł o kolekcji książek w Internet Archive
INFO: Zapowiada się ciekawa konferencja organizowana przez Stowarzyszenie Bibliotekarzy Polskich pt. „Technologie biblioteczne w okresie pandemii”, z cyklu „Automatyzacja bibliotek”. Tegoroczna konferencja odbędzie w dniach 1-2 grudnia 2021 r. i realizowana będzie online. Jest płatna.
INFO: No właśnie co się stanie ??? Prawdopodobnie tak jak wcześniejszych sytuacjach stracimy fizycznie te pliki muzyczne.
https://www.theatlantic.com/culture/archive/2021/07/spotify-streaming-music-library/619453/
INFO: Ciekawy artykuł o tym, że czas formatu JPG kończy się. Moim skromnym zdaniem JPG jako kopia użytkowa sprawdza się idealne, na razie jest zbyt popularny aby go zastąpić.
https://cloudinary.com/blog/time_for_next_gen_codecs_to_dethrone_jpeg
INFO: Zmagania olimpijskie już tuż tuż :) Europeana publikuje piękną kolekcję plakatów olimpijskich :) Warto obejrzeć :)
INFO: The British Library w październiku 2020 opublikowała w domenie publicznej 17 000 obrazów map i widoków z George III’s Topographical Collection. Teraz opublikowano kolejne 32 000 zdjęć na Flickr.
Więcej skanów i informacji o nich zajdziemy tu:
Wybieranie dobrego skanera jest ważną sprawą. Przede wszystkim musimy wiedzieć do czego skaner (czy też farma skanerów) jest potrzebny. Po co on jest i co chcemy osiągnąć. Czy będziemy skanować na potrzebny wewnętrzne czy realizować zamówienia klientów. Po drugie skaner musi być dostosowany do zasobu, które chcemy skanować. Jakość, typ i ilość zasobu nie jest bez znaczenia. W przypadku jakości zasobu dochodzi kwestia ewentualnej konserwacji materiału przeznaczonego do skanowania.
Wiadomo też, że jeśli mamy zdjęcia do digitalizacji to nie kupimy skanera przelotowego. Tak samo z mapami, gdzie potrzebujemy płaskiego wielkoformatowego skanera. :)
Przypuśćmy, że mamy farmę skanerów (10 osób skanujący + 2-3 osoby do weryfikacji). Mamy dużo materiału do skanowania i robimy zamówienia dla klientów zewnętrznych. Zamówienia dla klientów zewnętrznych oznaczają tylko, że będzie dużo pilnych zamówień, często dużych objętościowo.
Duże i pilne zamówienia oznacza także że musimy postawić na skanery przelotowe, których jest ważna tzw. przepustowość tj. czyli dzienna ilość skanów. Mamy więc skanery przelotowe z automatycznym podajnikiem dokumentów (ADF). Dzienne obciążenie 1 skanera powiedzmy to minimum 10 000 stron (10x10000). Piękna liczba, ale w rzeczywistości przepustowość jest mniejsza z różnych przyczyn np. niepełny skład zespołu, awarie techniczne, przerwy techniczne, poprawki. Tych czynników jest więcej.
Ważną rolę pełni aktualne oprogramowanie i sterowniki. Te składniki muszą dobre współdziałać ze sobą, być często aktualizowane. Cechy AI, automatyzacja opisów, nazw i tagów, inteligentne OCR, możliwość integracji z innymi systemami to obecnie postawy podstaw.
Kolejna sprawa to łatwość obsługi. Oznacza to, że obsługa skanera i oprogramowania musi być maksymalnie uproszczona tak aby w momencie braku składu możemy podtrzymać produkcję skanów bez strat w jakości, bez strat dla klientów.
Ostatnim punktem to: gwarancja i wsparcie techniczne. Przy dużej ilości skanerów to jest niebagatelna kwestia (w sumie przy każdej ilości skanerów). Przy farmie skanerów musimy zapewnić gwarancję i wsparcie techniczne przez dłuższy czas, co najmniej 5 i więcej lat. Trzeba pamiętać, że części do skanera lub moduły będą drogie. Konserwacja sprzętowa sama sobie jest w miarę tania, o ile nic nie będziemy wymieniać. Doświadczenia wiem, że to nie możliwe, zawsze coś będzie do wymiany. Takie prozaiczne rolki do skanerów, mogą kosztować nawet 0,5-1k przy jednym skanerze. Konserwacja powinna być przynajmniej dwa razy w roku.
Mówi się, że skanery powinny mieć możliwość dodawania modułów. Nie jestem zwolennikiem takich rozwiązań, które często są drogie i mało efektywnie. Może przy mniejszym zespole, zasobie będzie miało to sens. Przy naszej farmie skanerów to nie ma sensu. Dla mnie tylko wyspecjalizowane skanery (choć drogie na początku) mają sens.
Nie piszę o formatach cyfrowych. Wszystkie skanery, które można kupić na rynku mają szerokie spektrum wyboru formatów. Trzeba wybrać taki, które zapewni mam optymalną pracę dla nas i optymalny wynik dla klienta.
INFO: Z Web Archive możemy ściągać stron WWW. Do tego potrzebujemy Wayback Machine Downloader.
link do programu: https://github.com/hartator/wayback-machine-downloader
Trwała ochrona powoduje wiele problemów natury technicznej i zmusza nas do ich rozwiązania. Najpierw trzeba zdefiniować "trwałość nośników danych". Jest to zdolność do zachowywania wymaganych parametrów. W przypadku nośników danych cyfrowych najczęściej stosowanym do oceny trwałości jest liczba błędów odczytów przypadająca na konkretną ilość danych.
Pierwszy problem: trwałość nośników danych cyfrowych spowodowany jest przez stosunkową niską trwałość nośników dokumentów cyfrowych tj.:
oraz po przez starzenie się środków dostępu, połączeń sprzętu i oprogramowania. Drugi problem jest to utrata dostępu do dokumentów przez zdarzenia losowe takie jak:
Należy pamiętać o odpowiednich warunkach klimatycznych przechowywania taśm magnetycznych czy informatycznych nośników danych tj.:
Mamy kilka metod dla utrzymania użyteczności i trwałości naszych danych
Odświeżanie nośnika
Jeśli stwierdzimy oznaki degradacji nośników naszych możemy przeprowadzić operację "odświeżenie nośnika" tj. skopiowanie danych na nośnik tego samego typu.
Zmiana generacji nośnika
Zmiana generacji nośnika polega na kopiowanie danych z nośnika, który stał się przestarzały na nowy nośnik nowego typu. Wtedy przenosimy dane ze wszystkich nośników określonego typu na nośniki nowej generacji, niezależnie od stanu technicznego egzemplarzy.
Migracja
Migrację możemy zdefiniować jako konwersja dokumentu z oryginalnego formatu na nowszy, kiedy starszy format staje się przestarzały i wychodzi z użycia. Głównym problemem jest utrzymanie zachowania ciągłości danych treściowych i strukturalnych. Jeżeli migrację dokonuje się z poprzedniej migracji to wtedy ryzyko błędów wzrasta. Zaletą jest migracji jest łatwość udostępnienia dokumentów w formatach ogólnie dostępnych. Konwertowanie danych jest praco i czasochłonne, a im większe zasoby cyfrowe tym proces jest bardziej kosztowny.
Emulacja
Emulacja polega na migrację nie danych a otoczenia, które jest niezbędne do ich odczytu. Emulacja zapewnia nam unikniecie przekłamań i błędów w wersjach dokumentów. Przedmiotem emulacji może być: platforma sprzętowa (komputer), platforma sprzętowa wraz systemem operacyjnym i wraz oprogramowaniem dzięki któremu odczytamy dokumenty. Jest to metoda wymagająca dużych nakładów pracy, specjalistycznej wiedzy i dużych kosztów.
Repozytorium danych cyfrowych
W tym wypadku treść i struktura jest oddzielona od formy fizycznej. Dzięki temu już nie musimy monitorować stan technicznych poszczególnych egzemplarzy nośników. Jednak musimy wdrożyć tzw. politykę bezpieczeństwa tj. kontrola dostępu do systemu, ochronę kryptograficzną, podpis elektroniczny, tworzenie kopii zapasowych, regulacje prawne itd.. W repozytorium niezwykle ważna jest tzw. Kopia zapasowa. Zaleca się utrzymanie trzech niezależnych kopii zapasowych tj. reguła 3-2-1.
INFO: Artykuł reklamowy macie tu https://innpoland.pl/169675,zarzadzanie-dokumentami-cyfrowymi-doxychain-robi-to-na-blockchainie Z opisu wygląda to fajnie i szczerze im kibicuje aby im się udało. Jest to kierunek gdzie Archiwa nieważne jakiej proweniencji muszą pójść... Wiadomo, że blockchain nie jest lekiem na całe zło i jak z technologią każda ma i swoje ograniczenia. Jednak w przypadku archiwów instytucjonalnych była by to rewolucja, do której EZD się nie umywa :)
INFO: Instytut Sztuki PAN i Federacja Bibliotek Cyfrowych realizują projekt TeNe, który ma zwiększyć dostępność cyfrowych zasobów nauki i kultury w serwisie FBC. W związku z projektem powstała ankieta: Zwiększenie dostępności cyfrowych zasobów nauki i kultury w Federacji Bibliotek Cyfrowych poprzez pozyskiwanie reprezentacji tekstowej i nutowej.
Bezpieczeństwo: Ochrona przed wyciekiem danych
Sposobem zabezpieczenia jest posiadana kopia zapasowa danych, bezpośrednio wynikająca już z organizacji sieci. Niemniej, w przypadku kradzieży, nawet gdy posiadamy kopię zapasową, nie uchroni nas to przed „wypływem” skradzionych danych na zewnątrz organizacji. Tu ochronę może zapewnić kodowanie przechowywanych danych (najlepiej sprzętowe) oraz szyfrowanie samego przesyłania w sieci i modelu Zero Trust. W praktyce oznacza to, że każde urządzenie w sieci (i za tym użytkownik) musi mieć zaimplementowane polityki bezpieczeństwa, szyfrowania danych i ograniczonego zaufania – dostępu tylko do zasobów, które są niezbędne do wykonywania zadania w tym momencie.
Kolejnym sposobem zabezpieczania są systemy kontroli klasy DLP. Systemy te chronią przed wyciekiem danych w użyciu, spoczynku (w archiwum i backupie) i w ruchu. Są w stanie wyłapać chronione treści w samym dokumencie i je zablokować w zależności od tego co użytkownik chce z tym zrobić. DLP chroni przed ujawnieniem danych osobowych, finansowych, tajemnic firmy i patentów i innych baz.
Bezpieczeństwo: ochrona przed uszkodzeniem lub utratą danych
Nie można pominąć ochrony fizycznego dostępu do elementów sieci i samych serwerów oraz urządzeń pamięci masowej. Warto też zastanowić się nad działaniem sił wyższych i wydarzeniami losowymi - awarie sprzętu oraz oprogramowania, czynniki środowiskowe (mikroklimat), zanieczyszczenie powietrza, zakłócenia zasilania, klęski żywiołowe, katastrofy. Przechowywanie replikowanych danych w alternatywnych lokalizacjach jest zazwyczaj w stanie ochronić nas od najgorszego. Tu pojawia się także pojęcie High Availability (HA) związane m.in. z możliwością przejęcia zadań uszkodzonego elementu przez alternatywny (redundancja) i dalsze, niezakłócone operowanie zgromadzonymi plikami. Można również korzystać z modelu aktywnego ośrodka zapasowego, który równoważy obciążenie systemów oraz pełni rolę ośrodka zapasowego przy awarii któregokolwiek z nich
Poza HA dla sieci serwerów i macierzy należy koniecznie pomyśleć o kwestii backupu. Należy zaprojektować cała politykę Disaster Recovery Plan, która w uproszczeniu będzie wyszczególniała procedury przywrócenia po awarii; np.: co jest krytyczne, jak szybko systemy muszą zostać przywrócone i które systemy mają kluczowe znaczenie dla działania. Dzięki tym procedurom jest możliwe przywrócenie środowiska po awarii lub ataku hackerskim na tej samej infrastrukturze fizycznej/zastępczej lub w innym ośrodku przetwarzania danych: Disaster Recovery Center – np. w jednym z czterech ośrodków Data Center Netii
Bezpieczeństwo: Ochrona przed atakiem na infrastrukturę
Są to ataki typu DDoS, które mają na celu sparaliżowanie serwerów i organizacji. Bardzo często te ataki służą rekonesansowi lub wymuszeniom okupu. Ataki APT (Advanced Persistent Threat), te ataki często idą w ślad za atakiem typu DDoS. Należą do najniebezpieczniejszych działań cyber przestępczych. Są to zaawansowane i długotrwałe ataki łączące wiele różnych narzędzi. Rozpoczynają się od rekonesansu organizacji, jej pracowników, jej systemów ochrony i architektury. W ślad za tym idą kampanie celowane: phishing i spear-phishing, które mają na celu przemycenie malware, wydostanie danych do logowania do systemów i dalsza eskalacja uprawnień atakującego do wyższych systemów organizacji. Następni na końcu cyberprzestępca zaszywa się w organizacji, jest niewidoczny i przez długi czasy wydostaje i szpieguje informacje oraz ma wpływ na działanie firmy. Głównym celem tych ataków najczęściej jest własność intelektualna.
INFO: 07/07/2021 odbędzie się ciekawe seminarium o zautomatyzowaniu przechwytywania obrazu w eksperymencie RTI.
W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora do obliczania rozdzielczości skanów. Prompt był następujący: stwór...