INFO:
poniedziałek, 24 maja 2021
piątek, 21 maja 2021
Narzędzie: Vandal
INFO: Fajne narzędzie Vandal - jest to rozszerzenie do Firefoxa/Chrome, które pozwala przeglądać poprzednie wersje aktualnie odwiedzanej strony (jako backend używany jest serwis Web Archive).
https://vegetableman.github.io/vandal/
czwartek, 20 maja 2021
Felieton: Digitalizacja: Eksport i weryfikacja danych w Archiwum
Import i eksport danych
Naszym cudownym archiwum cyfrowym ważna jest kwestia importowania i eksportowania danych. Oczywiście dokumenty do systemu nie pochodzą tylko z digitalizacji, ale mamy też dokumenty born digita ze źródeł obcych jak i własnych. Import tych dokumentów musi obejmować wszystkie dostępne na rynku formaty zamknięte jak i otwarte. W biznesie będziemy mieli takie dokumenty jak: dowody nadania, umowy z kontrahentami, rozliczenia podatkowe, deklaracje, wzory pism, ustawy, rozporządzenia, akty notarialne, korespondencja, wnioski urlopowe, podania i inne. Ważne jest aby po digitalizacji nasze dane można było odczytać i modyfikować w różnych (także zewnętrznych) systemach. Dlatego w imporcie jak i eksporcie musimy mieć możliwość dostęp do cyfrowych formatów m.in.:
- CSV
- XML
- pliki graficzne (jpg, png, tiff, bmp) pliki tekstowe (txt, doc, docs)
- pliki dźwiękowe (mp3, wav) pliki hybrydowe (PDF, PDF/A)
Indeksowanie
W archiwach najczęściej tworzy się indeksy osobowe, geograficzne, rzeczowe. W biznesie tych danych jest o wiele więcej. Przykładowo jedna firma może wyszukiwać faktury po dacie, druga firma będzie wyszukiwała po numerze faktury, inna firma wybierze inny element itd.. W zależności jakie nam są potrzebne dane to takie zczytujemy do systemu. Dlatego też warto tworzyć tzw. słowniki kontrolowane. Krótko mówiąc słownik jest listą terminów i wyrażeń, które mogą zostać użyte w celu tworzenia metadanych. Jeśli słownik, który używamy jest znany i rozwijany to może nam pomóc stworzenia bardziej zaawansowanych mechanizmów wyszukiwania. Ogólnie taki słownik pomaga poprawić wyniki wyszukiwania w systemie. Mamy kilka typów słowników kontrolowanych tj.: listy terminów, tezaurusy czy hasła przedmiotowe, hasła wzorcowe itp.. Te typy słowników różnią się one od siebie minimalnie. Jednak wszystkie służą do tworzenia (dobrych) metadanych.
Weryfikacja
Jeśli na którymś etapie zrobiliśmy błąd to w zasadzie musimy cofnąć się do początku tj. do zeskanowania ponownie dokumentu dlatego ważna jest weryfikacja na każdym etapie digitalizacji czy tworzenia cyfrowego archiwum. Gdy skanujemy dokument - weryfikacja, wprowadzanie metadanych - weryfikacja, OCR - weryfikacja... każdy etap jest ważny !!!. Dla oszczędności czasu niekiedy przyjmuje się że weryfikacji poddajemy 20-30 % zbioru. Jeśli mamy czas i zasoby ten procent musi być większy.
Artykuł: The MegaPixel Paradox
wtorek, 18 maja 2021
poniedziałek, 17 maja 2021
Zasoby: Download 2,500 Beautiful Woodblock Prints and Drawings by Japanese Masters
INFO: Jeśli ktoś lubi japońskie klimaty jak ja to polecam ściągnąć zeskanowane w wysokiej rozdzielczości rysunki i drzeworyty ze strony Biblioteki Kongresu.
Fine Prints: Japanese, Pre-1915, Available Online | Library of Congress
Nowy wygląd www.szukajwarchiwach.gov.pl
piątek, 14 maja 2021
Wiedza: JPEG XL
INFO: JPEG XL jest format graficzny obsługujący zarówno kompresję stratną, jak i bezstratną. Raczej TIFFa nie zastąpi ale leciwego, zwykłego JPG-a tak o ile stanie się popularny na wielu platformach. Mamy przecież do dyspozycji bezstratnego JPG2000, który nie zastąpił zwykłej wersji. Obecnie format ten można włączyć w przeglądarkach internetowych: Chrome, Firefox, Edge
Więcej o formacie:
Zasoby: Leonardo da Vinci’s Notebooks Online
INFO: W artykule mamy zbiór miejsc gdzie można przeglądać zdigitalizowane notatki Leonardo da Vinci.
Artykuł: Archiwa Państwowe przyśpieszają
INFO: Netia stworzy wreszcie dla Archiwów Państwowych zintegrowany system cyfrowy. Taki system powinien już powstać dawno. Lepiej późno niż wcale :)
Więcej informacji na stronie NDAP https://www.archiwa.gov.pl/pl/aktualnosci/5399-archiwa-panstwowe-w-zintegrowanym-systemie-cyfrowym?fbclid=IwAR2Foc-ChjihrEO1xzM-DF0a6iws2BsgZ39LD7T0yMxl119Qo_BMRgqvyZA
czwartek, 13 maja 2021
Felieton: Digitalizacja: Metadane
Bez dobrych metadanych nie ma dobrej digitalizacji. Dostarczają informacji umożliwiających uporządkowanie danych, pojęć. Krótko mówiąc metadane to dane o danych. Szersza definicja metadanych, określa je jako informacje, które opisują, lokalizują, pomagają w przeszukiwaniu zbioru informacji. Wszystkie te typy metadanych muszą należycie charakteryzować dany dokument tak aby użytkownik mógł zrozumieć m.in. jego zawartość, źródło pochodzenia, warunki wykorzystania.
Mamy dwie drogi udostępniania metadanych: XML (oparty na strukturze drzewa) i RDF.
XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – jest uniwersalnym językiem znaczników przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.
Natomiast RDF (ang. Resource Description Framework) jest językiem pozwalającym na opisywanie zasobów sieci Web, ze składnią opartą na XML. Założeniem RDF jest opis zasobu za pomocą wyrażenia składającego się z trzech elementów: podmiotu, orzeczenia/predykatu (własność) i dopełnienia/obiektu (wartość).
Do dyspozycji mamy trzy podstawowe rodzaje metadanych, które należy wziąć pod uwagę:
- Opisowe - Opisują obiekt i służą do jego identyfikacji i wyszukiwania. Zawierają takie elementy, jak tytuł, autor, słowa kluczowe.
- Strukturalne - Opisują relacje między obiektami i ich elementami. Na przykład, jak strony składają się na rozdziały, a rozdziały na książkę.
- Administracyjne - Dostarczają informacji, które pomagają w zarządzaniu obiektem. Informują, kiedy i jak obiekt został stworzony, kto może mieć do niego dostęp. Zawierają też informacje techniczne na temat obiektu, chociażby jaki jest rodzaj pliku, w którym został zapisany.
- metadane zbierane w czasie projektu
- metadane tworzone w czasie powstawania systemu
- metadane tworzone podczas uruchamiania systemu
- metadane statyczne
- metadane dynamiczne
- metadane krótkoterminowe
- metadane długoterminowe.
Odpowiednie metadane trzeba dobrać do odpowiednich zbiorów. Wynika to specyfiki każdej instytucji/organizacji/firmy. Przy wyborze metadanych zwracamy uwagę na:
- rodzaj zgromadzonych w instytucji obiektów
- dostosowanie opisów do obiektów fizycznych i cyfrowych
- cele digitalizacji
W archiwach czy bibliotekach mamy wiele standardów metadanych m.in.:
Ciekawostka: Mapka pokazująca rozmieszczenie komputerów w województwach w 1975 roku
INFO: Ciekawa mapka pokazująca rozmieszczenie komputerów w województwach w 1975 roku Oczywiście ten stan to z fabryk i instytucji... Teraz ta mapka miała sens gdyby były to superkomputery. Marzenia... :) (mapka pochodzi z profilu Polskie Komputery na FB)
środa, 12 maja 2021
Webinar: Blockchain w archiwum - spotkanie wirtualne z prelekcją i dyskusją - IFAR
INFO: Zapraszam moją prelekcję o blockchainie i archiwach:)
http://www.ifar.pl/index.php?topic=4247.msg28427;topicseen#msg28427
wtorek, 11 maja 2021
Artykuł: National Archives of Australia ostrzega
INFO: NAA stara się się zdigitalizować ponad 11 milionów pozycji fotograficznych i 400 000 pozycji audiowizualnych na taśmie magnetycznej i kliszy, które mogą zostać utracone w ciągu najbliższych pięciu do dziesięciu lat z powodu zniszczenia lub starzenia się sprzętu odtwarzającego. Brakuje jednak funduszy. Według szacunków NAA zasób audiowizualny jest zdigitalizowany w 6%.
Więcej na:
Artykuł: ‘Hopefully, it’s all been digitised . . .’
INFO: ‘Hopefully, it’s all been digitised . . .’ to tytuł artykułu o pożarze czytelni Jagger Library na Uniwersytecie w Kapsztadzie. System ppoż. zadziałał uniemożliwiając rozprzestrzenienie ognia dalej. Niestety większość zniszczonych materiałów nie było zdigitalizowanych. To pokazuje jak ważny jest ten proces w archiwach, bibliotekach i w innych instytucji kultury.
Więcej o pożarze przeczytacie tu:
poniedziałek, 10 maja 2021
Konferencja: Wirtualne Forum 2021: eVault 2.0 – jak zarządzać danymi i dokumentami
INFO: Ta konferencja to w zasadzie reklama narzędzia eVault jednak chyba warta się zapisać. Z doświadczenia wiem, że czasami można dowiedzieć fajnych rzeczy ;)
https://reach.ironmountain.com/2021PLVirtualForumeVault26maja
Felieton: Słowa Kluczowe
- powinno być wyrazem języka naturalnego o dużej wartości znaczeniowej
- mogą być: rzeczowniki, przymiotniki czy też liczebniki przekształcone w rzeczowniki
- nie mogą być : spójniki, zaimki, przyimki, terminy o charakterze ogólnym lub terminy występujące powszechnie
- słowa kluczowe podajemy najczęściej w pierwszym przypadku liczby pojedynczej.
- słowo-klucz może być pojedynczym wyrazem lub wielowyrazową frazą
piątek, 7 maja 2021
Ciekawostka: Digitalizacja 3D
INFO: Jak dla mnie to bomba, wtedy widać sens digitalizacji na każdym poziomie :)
czwartek, 6 maja 2021
Narzędzie: New emulation tool unlocks a world of knowledge from old CD-ROMs
INFO: Yale University Library uruchomiła nowe narzędzie online - Yale Library Emulation Viewer, które umożliwia swoim użytkownikom dostęp do przestarzałych dysków CD-ROM w obecnych systemach komputerowych. Więcej na:
https://web.library.yale.edu/news/2021/04/new-emulation-tool-unlocks-world-knowledge-old-cd-roms
środa, 5 maja 2021
Zasoby: Muzealne repozytorium cyfrowe: Scan the World
Felieton: Digitalizacja: OCR
Skanowanie OCR są ważnym elementem w procesie digitalizacji zwłaszcza tekstowych dokumentów. Dzięki temu możemy nie tylko zachować wspomniany dokument, ale możemy wykorzystać go w późniejszym czasie dzięki możliwości edycji tekstu.
Wyróżniamy:
- OCR (Optical Character Recognition)
- HCR (Handprint Character Recognition)
- ICR (Inteligent Character Recognition)
- OMR (Optical Mark Recognition)
Krótko mówiąc OCR umożliwia automatyczne wykrywanie drukowanych znaków na skanowanym dokumencie. Następnie przekształca na edytowalna wersję. Mamy dwie drogi, albo skanujemy od razu z OCR lub dopiero na etapie postprodukcji załączamy proces OCR.
Jak działa skanowanie OCR ???
Najpierw kładziemy dokument na szybie skanera, włączamy oprogramowanie do skanowania, włączamy odpowiednią opcje i naciskamy przycisk "skanuj". Wbudowane oprogramowanie (najczęściej), które wykrywa znaki znajdujące się na dokumencie, a następnie automatycznie konwertuje na cyfrowe wersje. Taki tekst można ręcznie sprawdzić i poprawić. Następnie zapisujemy w odpowiednim formacie np. docx, PDF.
Zalety skanowania OCR
- Starsze lub nieaktualne dokumenty możemy modyfikować/aktualizować
- Tekst można przeszukiwać znacznie przyspieszając wyszukiwanie ważnych informacji (w formacie edytowalnym lub w pliku PDF) Tekst zajmuje znacznie mniej miejsca na dysku niż plik graficzny
- Archiwizacja dokumentów jest po prostu szybsza
Dokładność skanowania OCR
OCR może być dokładny w 99%. Trzeba spełnić kilka warunków tj.:
- dobry stan dokumentu
- tekst w bloku (najlepiej tekst maszynowy)
- odpowiednie tło dokumentu
Jeśli stan dokumentu jest zły to oczywiście procentowa dokładność spadnie. Dlatego jest niezbędna korekta OCR. Jest to praca bardzo czaso i pracochłonna zwłaszcza przy złym stanie dokumentacji.
Narzędzia wybrane:
- ABBYY FlexiCapture,
- ABBYY FineReader,
- ABBYY FineReader Engine
- Tesseract OCR
Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku
W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora do obliczania rozdzielczości skanów. Prompt był następujący: stwór...
-
INFO: Coś się wreszcie ruszyło odnośne archiwizacji Internetu. :) Prelekcje będą w pierwszym dniu. W drugim dniu będą panele dyskusyjne tj....
-
INFO: W dniach 24-26/11/2021 odbędzie się w Toruniu ogólnopolska konferencja dla osób odpowiedzialnych za obieg informacji, kompletowanie a...
-
INFO: Pięć znaków ostrzegawczych, które mówią nam, że potrzebujemy systemu DAM :) https://www.widen.com/blog/five-telltale-signs-that-you-ne...