piątek, 23 lipca 2021

Artykuł: Internet Archive’s Modern Book Collection Now Tops 2 Million Volumes

INFO: Artykuł o kolekcji książek w Internet Archive

https://blog.archive.org/2021/02/03/internet-archives-modern-book-collection-now-tops-2-million-volumes/

Konferencja: „Technologie biblioteczne w okresie pandemii”

INFO: Zapowiada się ciekawa konferencja organizowana przez  Stowarzyszenie Bibliotekarzy Polskich pt. „Technologie biblioteczne w okresie pandemii”, z cyklu „Automatyzacja bibliotek”. Tegoroczna konferencja odbędzie w dniach 1-2 grudnia 2021 r. i realizowana będzie online. Jest płatna. 

https://automatyzacjabibliotek.sbp.pl/zaproszenie/?fbclid=IwAR2DLwjeR-unPyGbjTdXnmgGcj-ei7uM6qee5hN6Z9Xd94IU0mrFu7GY5ac


Webinar: ELEKTRONICZNA TECZKA PRACOWNICZA

INFO: Ciekawe webinarium dla działów HR o digitalizacji 11/08/2021 :) Warto być.

Artykuł: What Will Happen to My Music Library When Spotify Dies?

INFO: No właśnie co się stanie ??? Prawdopodobnie tak jak wcześniejszych sytuacjach stracimy fizycznie te pliki muzyczne.

https://www.theatlantic.com/culture/archive/2021/07/spotify-streaming-music-library/619453/

Zasoby: Średniowieczne grafiki lwów

INFO: Te średniowieczne rysunki lwów są rozbrajające. Polecam każdemu :) 





Artykuł: What to look for when choosing a large format book scanner

INFO: Kolejny, ciekawy artykuł o wyborze skanera wielkoformatowego do książek... a jak wiemy wybór dobrego skanera to podstawa :)

Artykuł: Time for Next-Gen Codecs to Dethrone JPEG

INFO: Ciekawy artykuł o tym, że czas formatu JPG kończy się. Moim skromnym zdaniem JPG jako kopia użytkowa sprawdza się idealne, na razie jest  zbyt popularny aby go zastąpić. 

 https://cloudinary.com/blog/time_for_next_gen_codecs_to_dethrone_jpeg

Zasoby: Olympic Games posters and graphic design

INFO: Zmagania olimpijskie już tuż tuż :) Europeana publikuje piękną kolekcję plakatów olimpijskich :) Warto obejrzeć :)

https://www.europeana.eu/en/galleries/olympic-games-posters-and-graphic-design?fbclid=IwAR24XBvIuFT4T3QMcwn1rMFaAHcgeqBbONXgEPlhKszAV1JveJsCGTjA6Y8

Zasoby: A 19th-Century Vision of the Year 2000

INFO: Tak widziano naszą przyszłość...  

https://publicdomainreview.org/collection/a-19th-century-vision-of-the-year-2000?fbclid=IwAR1ZT5jOA_TBvA_z5PEiQwt9jHX1vrnmP0tG5VGUbI7E-ly18DPF21LsWw4

Zasoby: Nowe skany George III’s Topographical Collection

INFO: The British Library w październiku 2020 opublikowała w domenie publicznej 17 000 obrazów map i widoków z George III’s Topographical Collection. Teraz opublikowano kolejne 32 000 zdjęć na Flickr.

Więcej skanów i informacji o nich zajdziemy tu:

https://blogs.bl.uk/magnificentmaps/2021/07/george-iiis-maps-and-views-32000-images-released-on-flickr-commons.html?fbclid=IwAR0QcA_Yl7ShhE0qvPzhyFAiVU4-OsrmCW0h1rcNFyMdtFUU20WBE8Am5HE

https://www.flickr.com/photos/britishlibrary/collections/72157719509637544/?fbclid=IwAR2pJZ2QcCYKO-oiajrkE4YRSy8bwY5DVPaL7GjoUM57XVIerzYAjCUAoPE

niedziela, 18 lipca 2021

Skaner - jaki wybrać do pracy

Wybieranie dobrego skanera jest ważną sprawą. Przede wszystkim musimy wiedzieć do czego  skaner (czy też farma skanerów) jest potrzebny. Po co on jest i co chcemy osiągnąć. Czy będziemy skanować  na potrzebny wewnętrzne czy realizować zamówienia klientów. Po drugie skaner musi być dostosowany do zasobu, które chcemy skanować. Jakość, typ i ilość zasobu nie jest bez znaczenia.  W przypadku jakości zasobu dochodzi kwestia ewentualnej konserwacji materiału przeznaczonego do skanowania.  

Wiadomo też, że jeśli mamy zdjęcia do digitalizacji to nie kupimy skanera przelotowego. Tak samo z mapami, gdzie potrzebujemy  płaskiego wielkoformatowego skanera. :)

Przypuśćmy, że mamy farmę skanerów (10 osób skanujący + 2-3 osoby do weryfikacji). Mamy dużo materiału do skanowania i robimy zamówienia dla klientów zewnętrznych. Zamówienia dla klientów zewnętrznych oznaczają tylko, że będzie dużo pilnych zamówień, często dużych objętościowo. 

Duże i pilne zamówienia oznacza także że musimy postawić na skanery przelotowe, których jest ważna tzw. przepustowość tj. czyli dzienna ilość skanów. Mamy więc skanery przelotowe z automatycznym podajnikiem dokumentów (ADF). Dzienne obciążenie 1 skanera powiedzmy to minimum 10 000 stron (10x10000). Piękna liczba, ale w rzeczywistości  przepustowość jest mniejsza z różnych przyczyn np. niepełny skład zespołu, awarie techniczne, przerwy techniczne, poprawki. Tych czynników jest więcej. 

Ważną rolę pełni aktualne oprogramowanie i sterowniki. Te składniki muszą dobre współdziałać ze sobą, być często aktualizowane. Cechy AI, automatyzacja opisów, nazw  i tagów, inteligentne OCR, możliwość integracji z innymi systemami to obecnie postawy podstaw. 

Kolejna sprawa to łatwość obsługi. Oznacza to, że obsługa skanera i oprogramowania musi być maksymalnie uproszczona tak aby w momencie braku składu możemy podtrzymać produkcję skanów bez strat w jakości, bez strat dla klientów. 

Ostatnim punktem to: gwarancja i wsparcie techniczne. Przy dużej ilości skanerów to jest niebagatelna kwestia  (w sumie przy każdej ilości skanerów). Przy farmie skanerów musimy zapewnić gwarancję i wsparcie techniczne przez dłuższy czas, co najmniej 5 i więcej lat. Trzeba pamiętać, że części do skanera lub moduły będą drogie. Konserwacja sprzętowa sama sobie jest w miarę tania, o ile nic nie będziemy wymieniać. Doświadczenia wiem, że to nie możliwe, zawsze coś będzie do wymiany. Takie prozaiczne rolki do skanerów, mogą kosztować nawet 0,5-1k przy jednym skanerze. Konserwacja powinna być przynajmniej dwa razy w roku. 

Mówi się, że skanery powinny mieć możliwość dodawania modułów. Nie jestem zwolennikiem takich rozwiązań, które często są drogie i mało efektywnie. Może przy mniejszym zespole, zasobie będzie miało to sens. Przy naszej farmie skanerów to nie ma sensu. Dla mnie tylko wyspecjalizowane skanery (choć drogie na początku) mają sens.

Nie piszę o formatach cyfrowych. Wszystkie skanery, które można kupić na rynku mają szerokie spektrum wyboru formatów. Trzeba wybrać taki, które zapewni mam optymalną pracę dla nas i optymalny wynik dla klienta. 



Narzędzie: Do ściągania stron WWW: wayback machine downloader

INFO: Z Web Archive możemy ściągać  stron WWW. Do tego potrzebujemy Wayback Machine Downloader.

link do programu: https://github.com/hartator/wayback-machine-downloader

wtorek, 13 lipca 2021

Digitalizacja: Trwała ochrona zasobów cyfrowych

Trwała ochrona powoduje wiele problemów natury technicznej i zmusza nas do ich rozwiązania. Najpierw trzeba zdefiniować "trwałość nośników danych". Jest to zdolność do zachowywania wymaganych parametrów. W przypadku nośników danych cyfrowych najczęściej stosowanym do oceny trwałości jest liczba błędów odczytów przypadająca na konkretną ilość danych.

Pierwszy problem: trwałość nośników danych cyfrowych spowodowany jest przez stosunkową niską trwałość nośników dokumentów cyfrowych tj.:

  • Dyski CD/DVD - 5 lat (specjalne wersje nawet i 100 lat)
  • Dyski HHD - 4-5 lat
  • Dyski SSD - 10 i więcej lat
  • Taśmy magnetyczne – 30 lat

oraz po przez starzenie się środków dostępu, połączeń sprzętu i oprogramowania. Drugi problem jest to utrata dostępu do dokumentów przez zdarzenia losowe takie jak:

  • pożary
  • powodzie
  • awarie
  • ataki hackerskie

Należy pamiętać o odpowiednich warunkach klimatycznych przechowywania taśm magnetycznych czy informatycznych nośników danych tj.:

  • właściwa temperatura powietrza (w stopniach Celsjusza): 8-18
  • właściwa wilgotność względna powietrza (w % RH): 20-50

Mamy kilka metod dla utrzymania użyteczności i trwałości naszych danych

Odświeżanie nośnika

Jeśli stwierdzimy oznaki degradacji nośników naszych możemy przeprowadzić operację "odświeżenie nośnika" tj. skopiowanie danych na nośnik tego samego typu.

Zmiana generacji nośnika

Zmiana generacji nośnika polega na kopiowanie danych z nośnika, który stał się przestarzały na nowy nośnik nowego typu. Wtedy przenosimy dane ze wszystkich nośników określonego typu na nośniki nowej generacji, niezależnie od stanu technicznego egzemplarzy.

Migracja

Migrację możemy zdefiniować jako konwersja dokumentu z oryginalnego formatu na nowszy, kiedy starszy format staje się przestarzały i wychodzi z użycia. Głównym problemem jest utrzymanie zachowania ciągłości danych treściowych i strukturalnych. Jeżeli migrację dokonuje się z poprzedniej migracji to wtedy ryzyko błędów wzrasta. Zaletą jest migracji jest łatwość udostępnienia dokumentów w formatach ogólnie dostępnych. Konwertowanie danych jest praco i czasochłonne, a im większe zasoby cyfrowe tym proces jest bardziej kosztowny.

Emulacja

Emulacja polega na migrację nie danych a otoczenia, które jest niezbędne do ich odczytu. Emulacja zapewnia nam unikniecie przekłamań i błędów w wersjach dokumentów. Przedmiotem emulacji może być: platforma  sprzętowa  (komputer),  platforma  sprzętowa  wraz  systemem operacyjnym i wraz oprogramowaniem dzięki któremu odczytamy dokumenty. Jest to metoda wymagająca dużych nakładów pracy, specjalistycznej wiedzy i dużych kosztów.

Repozytorium danych cyfrowych

W tym wypadku treść i struktura jest oddzielona od formy fizycznej. Dzięki temu już nie musimy monitorować stan technicznych poszczególnych egzemplarzy nośników. Jednak musimy wdrożyć tzw. politykę bezpieczeństwa tj. kontrola dostępu do systemu, ochronę kryptograficzną, podpis elektroniczny, tworzenie kopii zapasowych, regulacje prawne itd.. W repozytorium niezwykle  ważna  jest  tzw.  Kopia  zapasowa.  Zaleca  się  utrzymanie   trzech   niezależnych   kopii zapasowych tj. reguła 3-2-1.

sobota, 10 lipca 2021

Artykuł: DoxyChain - polski blockchain do zarządzania dokumentami

INFO: Artykuł reklamowy macie tu https://innpoland.pl/169675,zarzadzanie-dokumentami-cyfrowymi-doxychain-robi-to-na-blockchainie Z opisu wygląda to fajnie i szczerze im kibicuje aby im się udało. Jest to kierunek gdzie Archiwa nieważne jakiej proweniencji muszą pójść... Wiadomo, że blockchain nie jest lekiem na całe zło i jak z technologią  każda ma i swoje ograniczenia. Jednak w przypadku archiwów instytucjonalnych była by to rewolucja, do której EZD się nie umywa :)

środa, 7 lipca 2021

Praca: Digital Photo Assistant [Warszawa, Discovery Inc.]

INFO: 

https://www.linkedin.com/jobs/view/2602002134/?alternateChannel=search&refId=mKuz77hAiAEqlyzq8hHJiw%3D%3D

Szkolenie: Summer school: Web and social media archiving and preservation

INFO: Można rejestrować się na letnią szkołę „Archiwizacja i konserwacja w sieciach i mediach społecznościowych” organizowanej przez Wydział Dziedzictwa Kulturowego Uniwersytetu Bolońskiego we współpracy z Fondazione FlaminiaSzkoła letnia odbędzie się online w dniach od 6 do 10 września 2021 r. i  jest skierowana do specjalistów zajmujących się dziedzictwem kulturowym, informatyków, humanistów cyfrowych, osób pracujących w sektorze publicznym i prywatnym, studentów bibliotekoznawstwa i informatyki oraz humanistyki cyfrowej . Termin rejestracji upływa 23 sierpnia 2021 r.

wtorek, 6 lipca 2021

Digitalizacja: Ochrona przed wyciekiem danych, uszkodzeniem lub utratą danych, przed atakiem na infrastrukturę

Bezpieczeństwo: Ochrona przed wyciekiem danych

Sposobem zabezpieczenia jest posiadana kopia zapasowa danych, bezpośrednio wynikająca już z organizacji sieci. Niemniej, w przypadku kradzieży, nawet gdy posiadamy kopię zapasową, nie uchroni nas to przed „wypływem” skradzionych danych na zewnątrz organizacji. Tu ochronę może zapewnić kodowanie przechowywanych danych (najlepiej sprzętowe) oraz szyfrowanie samego przesyłania w sieci i modelu Zero Trust. W praktyce oznacza to, że każde urządzenie w sieci (i za tym użytkownik) musi mieć zaimplementowane polityki bezpieczeństwa, szyfrowania danych i ograniczonego zaufania – dostępu tylko do zasobów, które są niezbędne do wykonywania zadania w tym momencie.

Kolejnym sposobem zabezpieczania są systemy kontroli klasy DLP. Systemy te chronią przed wyciekiem danych w użyciu, spoczynku (w archiwum i backupie) i w ruchu. Są w stanie wyłapać chronione treści w samym dokumencie i je zablokować w zależności od tego co użytkownik chce z tym zrobić. DLP chroni przed  ujawnieniem  danych  osobowych,  finansowych,  tajemnic  firmy  i patentów i innych baz.

Bezpieczeństwo: ochrona przed uszkodzeniem lub utratą danych

Nie można pominąć ochrony fizycznego dostępu do elementów sieci i samych serwerów oraz urządzeń pamięci masowej. Warto też zastanowić się nad działaniem sił wyższych i wydarzeniami losowymi - awarie sprzętu oraz oprogramowania, czynniki środowiskowe (mikroklimat), zanieczyszczenie powietrza, zakłócenia zasilania, klęski żywiołowe, katastrofy. Przechowywanie replikowanych danych w alternatywnych lokalizacjach jest zazwyczaj w stanie ochronić nas od najgorszego. Tu pojawia się także pojęcie High Availability (HA) związane m.in. z możliwością przejęcia zadań uszkodzonego elementu przez alternatywny (redundancja) i dalsze, niezakłócone operowanie zgromadzonymi plikami. Można również korzystać z modelu aktywnego ośrodka zapasowego, który równoważy obciążenie systemów oraz pełni rolę ośrodka zapasowego przy awarii któregokolwiek z nich

Poza HA dla sieci serwerów i macierzy należy koniecznie pomyśleć o kwestii backupu. Należy zaprojektować cała politykę Disaster Recovery Plan, która w uproszczeniu będzie wyszczególniała procedury przywrócenia po awarii; np.: co jest krytyczne, jak szybko systemy muszą zostać przywrócone i które systemy mają kluczowe znaczenie dla działania. Dzięki tym procedurom jest możliwe przywrócenie środowiska po awarii lub ataku hackerskim na tej samej infrastrukturze fizycznej/zastępczej lub w innym ośrodku przetwarzania danych: Disaster Recovery Center – np. w jednym z czterech ośrodków Data Center Netii

Bezpieczeństwo: Ochrona przed atakiem na infrastrukturę

Są to ataki typu DDoS, które mają na celu sparaliżowanie serwerów i organizacji. Bardzo często te ataki służą rekonesansowi lub wymuszeniom okupu. Ataki APT (Advanced Persistent Threat), te ataki często idą w ślad za atakiem typu DDoS. Należą do najniebezpieczniejszych działań cyber przestępczych. Są to zaawansowane i długotrwałe ataki łączące wiele różnych narzędzi. Rozpoczynają się od rekonesansu organizacji, jej pracowników, jej systemów ochrony i architektury. W ślad za tym idą kampanie celowane: phishing i spear-phishing, które mają na celu przemycenie malware, wydostanie danych do logowania do systemów i dalsza eskalacja uprawnień atakującego do wyższych systemów organizacji. Następni na końcu cyberprzestępca zaszywa się w organizacji, jest niewidoczny i przez długi czasy wydostaje i szpieguje informacje oraz ma wpływ na działanie firmy. Głównym celem tych ataków najczęściej jest własność intelektualna.




poniedziałek, 5 lipca 2021

Praca: Starszy specjalista ds. zarządzania systemami wewnętrznym [Warszawa, Centrum e-Zdrowia]

INFO: 

https://pl.indeed.com/poka%C5%BCprac%C4%99?jk=dc0538e0c4559f76&q=Centrum+Obs%C5%82ugi+Dokument%C3%B3w&l=Warszawa,+mazowieckie&tk=1f9kd8037ucno801&from=ja&alid=565f6969e4b0ee74d13c5c23&utm_campaign=job_alerts&utm_medium=email&utm_source=jobseeker_emails&rgtk=1f9kd8037ucno801

Webinar: Zautomatyzowane przechwytywanie obrazu w eksperymencie RTI

INFO: 07/07/2021 odbędzie się ciekawe seminarium o zautomatyzowaniu przechwytywania obrazu w eksperymencie RTI.

Więcej na: https://cfpr.uwe.ac.uk/cfpr-lunchtime-seminar-7-july-2021/?utm_source=Corporate+Newsletter&utm_campaign=1804475397-Imaging_Archiving_November_17_COPY_21&utm_medium=email&utm_term=0_3b149b90de-1804475397-304584753&goal=0_3b149b90de-1804475397-304584753

Poradnik: Guide OSSArcFlow

Do dyspozycji mamy darmowy podręcznik OSSArcFlow, który opisuje workflow w cyfrowych archiwach. Warto zajrzeć do tej pozycji.

Linki: 

Zasoby: The Scottish Fisheries Museum

INFO: Polecam fajne repozytorium cyfrowe The Scottish Fisheries Museum.

Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku

W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora  do obliczania rozdzielczości skanów. Prompt był następujący: stwór...