piątek, 21 maja 2021

Narzędzie: Vandal

INFO: Fajne narzędzie Vandal - jest to  rozszerzenie do Firefoxa/Chrome, które pozwala przeglądać poprzednie wersje aktualnie odwiedzanej strony (jako backend używany jest serwis Web Archive).

https://vegetableman.github.io/vandal/


czwartek, 20 maja 2021

Felieton: Digitalizacja: Eksport i weryfikacja danych w Archiwum

Import i eksport danych

Naszym cudownym archiwum cyfrowym ważna jest kwestia importowania i eksportowania danych. Oczywiście dokumenty do systemu nie pochodzą tylko z digitalizacji, ale mamy też dokumenty born digita ze źródeł obcych jak i własnych. Import tych dokumentów musi obejmować wszystkie dostępne na rynku formaty zamknięte jak i otwarte. W biznesie będziemy mieli takie dokumenty jak: dowody nadania, umowy z kontrahentami, rozliczenia podatkowe, deklaracje, wzory pism, ustawy, rozporządzenia, akty notarialne, korespondencja, wnioski urlopowe, podania i inne. Ważne jest aby po digitalizacji nasze dane można było odczytać  i  modyfikować  w  różnych  (także  zewnętrznych)  systemach.  Dlatego  w  imporcie jak  i  eksporcie  musimy  mieć  możliwość  dostęp  do  cyfrowych  formatów  m.in.:

  • CSV 
  • XML
  • pliki graficzne (jpg, png, tiff, bmp) pliki tekstowe (txt, doc, docs)
  • pliki dźwiękowe (mp3, wav) pliki hybrydowe (PDF, PDF/A)

Indeksowanie

W archiwach najczęściej tworzy się  indeksy  osobowe,  geograficzne,  rzeczowe.  W  biznesie  tych  danych jest o wiele więcej. Przykładowo jedna firma może wyszukiwać faktury po dacie, druga firma będzie wyszukiwała po numerze faktury, inna firma wybierze inny element itd.. W zależności jakie nam są potrzebne dane to takie zczytujemy do systemu. Dlatego też  warto  tworzyć  tzw.  słowniki kontrolowane. Krótko mówiąc słownik jest listą terminów i wyrażeń, które mogą zostać użyte w celu tworzenia metadanych. Jeśli słownik, który używamy jest znany i rozwijany to może nam pomóc  stworzenia  bardziej  zaawansowanych  mechanizmów   wyszukiwania.   Ogólnie   taki   słownik pomaga poprawić wyniki wyszukiwania w systemie. Mamy kilka typów  słowników  kontrolowanych  tj.: listy terminów, tezaurusy czy hasła przedmiotowe, hasła wzorcowe itp.. Te typy słowników różnią się one od siebie minimalnie. Jednak wszystkie służą do tworzenia (dobrych) metadanych.

Weryfikacja

Jeśli na którymś etapie zrobiliśmy błąd to w zasadzie musimy cofnąć się do początku tj. do zeskanowania ponownie dokumentu dlatego ważna jest weryfikacja na każdym etapie digitalizacji czy tworzenia cyfrowego archiwum. Gdy skanujemy dokument - weryfikacja, wprowadzanie metadanych - weryfikacja, OCR  -  weryfikacja...  każdy  etap jest ważny !!!. Dla oszczędności czasu niekiedy przyjmuje się że weryfikacji poddajemy 20-30 % zbioru. Jeśli mamy czas i zasoby ten procent musi być większy.

Artykuł: The MegaPixel Paradox

INFO: Ciekawy temat - wzrost megapikseli nie zawsze daje lepszą jakość... wyjaśnienie w artykule :)

piątek, 14 maja 2021

Wiedza: JPEG XL

INFO: JPEG XL jest format graficzny obsługujący zarówno kompresję stratną, jak i bezstratną. Raczej TIFFa nie zastąpi ale leciwego, zwykłego JPG-a tak o ile stanie się popularny na wielu platformach. Mamy przecież do dyspozycji bezstratnego  JPG2000, który nie zastąpił zwykłej wersji. Obecnie format ten można włączyć w przeglądarkach internetowych: Chrome, Firefox, Edge

Więcej o formacie:

https://pl.wikipedia.org/wiki/JPEG_XL

https://jpeg.org/jpegxl/

Zasoby: Leonardo da Vinci’s Notebooks Online

INFO: W artykule mamy zbiór miejsc gdzie można przeglądać zdigitalizowane notatki Leonardo da Vinci.

https://www.openculture.com/2021/05/where-to-read-leonardo-da-vincis-notebooks-online.html?fbclid=IwAR0OGt3kllzdahNlInGbAg-shew_9MR_mclt85tnGUGPBPvKZVz_A1Pgoqc 

Artykuł: Archiwa Państwowe przyśpieszają

INFO: Netia stworzy wreszcie dla Archiwów Państwowych zintegrowany system cyfrowy. Taki system powinien już powstać dawno.  Lepiej późno niż wcale :)

Więcej informacji na stronie NDAP https://www.archiwa.gov.pl/pl/aktualnosci/5399-archiwa-panstwowe-w-zintegrowanym-systemie-cyfrowym?fbclid=IwAR2Foc-ChjihrEO1xzM-DF0a6iws2BsgZ39LD7T0yMxl119Qo_BMRgqvyZA

Praca: Specjalista w projekcie badawczym [Poznań, Uniwersytet im. Adama Mickiewicza]

INFO: 

https://www.pracuj.pl/praca/specjalista-w-projekcie-badawczym-ncn-sonata-bis-7-pt-punktoza-w-czasie-systemow-poznan,oferta,1000939633?sendid=3ec960a3-6fc7-44e9-85c7-75cda6acc6d5&send_date=2021-05-14&utm_source=ja&utm_medium=email&utm_campaign=prog_ja_top

czwartek, 13 maja 2021

Felieton: Digitalizacja: Metadane

Bez dobrych metadanych nie ma dobrej digitalizacji. Dostarczają informacji umożliwiających uporządkowanie danych, pojęć. Krótko mówiąc metadane to dane o danych. Szersza definicja metadanych, określa je jako informacje, które opisują, lokalizują, pomagają w przeszukiwaniu zbioru informacji. Wszystkie te typy metadanych muszą należycie charakteryzować dany dokument tak aby użytkownik mógł zrozumieć m.in. jego zawartość, źródło pochodzenia, warunki wykorzystania.

Mamy dwie drogi udostępniania metadanych: XML (oparty na strukturze drzewa) i RDF.

XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – jest uniwersalnym językiem znaczników przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.

Natomiast RDF (ang. Resource Description Framework) jest językiem pozwalającym na opisywanie zasobów sieci Web, ze składnią opartą na XML. Założeniem RDF jest opis zasobu za pomocą wyrażenia składającego się z trzech elementów: podmiotu, orzeczenia/predykatu (własność) i dopełnienia/obiektu (wartość).

Do dyspozycji mamy trzy podstawowe rodzaje metadanych, które należy wziąć pod uwagę:

  • Opisowe - Opisują obiekt i służą do jego identyfikacji i wyszukiwania. Zawierają takie elementy, jak tytuł,  autor, słowa kluczowe.
  • Strukturalne - Opisują relacje między obiektami i ich elementami. Na przykład, jak strony składają się na  rozdziały, a rozdziały na książkę.
  • Administracyjne - Dostarczają informacji, które pomagają w zarządzaniu obiektem. Informują, kiedy i jak obiekt został stworzony, kto może mieć do niego dostęp. Zawierają też informacje techniczne na temat obiektu, chociażby jaki jest rodzaj pliku, w którym został zapisany.
Metadane możemy podzielić jeszcze ze względu na kryterium czasu, w którym zostały utworzone:
  • metadane zbierane w czasie projektu 
  • metadane tworzone w czasie powstawania systemu
  • metadane tworzone podczas uruchamiania systemu
  • metadane statyczne
  • metadane dynamiczne 
  • metadane krótkoterminowe
  • metadane długoterminowe.

Odpowiednie metadane trzeba dobrać do odpowiednich zbiorów. Wynika to specyfiki każdej instytucji/organizacji/firmy. Przy wyborze metadanych zwracamy uwagę na:

  • rodzaj zgromadzonych w instytucji obiektów
  • dostosowanie opisów do obiektów fizycznych i cyfrowych
  • cele digitalizacji

W archiwach czy bibliotekach mamy wiele standardów metadanych m.in.:

Ciekawostka: Mapka pokazująca rozmieszczenie komputerów w województwach w 1975 roku

INFO: Ciekawa mapka pokazująca rozmieszczenie komputerów w województwach w 1975 roku Oczywiście ten stan to z fabryk i instytucji... Teraz ta mapka miała sens gdyby były to superkomputery. Marzenia... :) (mapka pochodzi z profilu Polskie Komputery na FB)






wtorek, 11 maja 2021

Artykuł: National Archives of Australia ostrzega

INFO: NAA stara się się zdigitalizować ponad 11 milionów pozycji fotograficznych i 400 000 pozycji audiowizualnych na taśmie magnetycznej i kliszy, które mogą zostać utracone w ciągu najbliższych pięciu do dziesięciu lat z powodu zniszczenia lub starzenia się sprzętu odtwarzającego. Brakuje jednak funduszy. Według szacunków NAA zasób audiowizualny jest zdigitalizowany w 6%.

Więcej na: 

Artykuł: ‘Hopefully, it’s all been digitised . . .’

INFO: ‘Hopefully, it’s all been digitised . . .’ to tytuł artykułu o pożarze czytelni Jagger Library na Uniwersytecie w Kapsztadzie. System ppoż. zadziałał uniemożliwiając rozprzestrzenienie ognia dalej. Niestety większość zniszczonych materiałów nie było zdigitalizowanych. To pokazuje jak ważny jest ten proces w archiwach, bibliotekach i w innych instytucji kultury.

Więcej o pożarze przeczytacie tu: 

https://mg.co.za/education/2021-04-29-hopefully-its-all-been-digitised/?utm_source=Corporate+Newsletter&utm_campaign=d780c8595a-Imaging_Archiving_November_17_COPY_19&utm_medium=email&utm_term=0_3b149b90de-d780c8595a-304584753&goal=0_3b149b90de-d780c8595a-304584753

Narzędzie: Squoosh - narzędzie do kompresji i zmiany wymiarów grafik z zachowaniem ich jakości

INFO: 

https://squoosh.app/

poniedziałek, 10 maja 2021

Konferencja: Wirtualne Forum 2021: eVault 2.0 – jak zarządzać danymi i dokumentami

INFO: Ta konferencja to w zasadzie reklama narzędzia eVault jednak chyba warta się zapisać. Z doświadczenia wiem, że czasami można dowiedzieć fajnych rzeczy ;)

https://reach.ironmountain.com/2021PLVirtualForumeVault26maja




Felieton: Słowa Kluczowe

Bardzo ważną kwestią  w wyszukiwaniu dokumentów są słowa kluczowe, Dzięki nim możemy szybko odnaleźć dany dokument no chyba, że mamy źle dobrane tagi lub w ogóle ich  dany dokument nie posiada. Krótko pisząc słowa kluczowe są to wyrazy lub wyrażenia wybrane z tytułu, tekstu dokumentu lub spoza tekstu, (np. ze słownika słów kluczowych) charakteryzujące jego treść.

Jakie powinno wyglądać słowo - klucz???
  • powinno być wyrazem języka naturalnego o dużej wartości znaczeniowej
  • mogą być: rzeczowniki, przymiotniki czy też liczebniki przekształcone w rzeczowniki
  • nie mogą być : spójniki, zaimki, przyimki, terminy o charakterze ogólnym lub terminy występujące powszechnie
  • słowa kluczowe podajemy najczęściej w pierwszym przypadku liczby pojedynczej.
  • słowo-klucz może być pojedynczym  wyrazem lub wielowyrazową frazą

Przykłady:

1. Laureaci konkursu Digital Ars o sztuce tworzonej przez AI
Słowa kluczowe: LAUREAT, KONKURS, DIGITAL ARS, SZTUKA, AI, KOMPUTERY, ALGORYTMY

2. Pierwsze wydanie analiz Cool Guys Capital.
Słowa kluczowe: WYDANIE, ANALIZA, COOL GUYS CAPITAL, BIZNES, E-MAIL, FINANSE

środa, 5 maja 2021

Zasoby: Muzealne repozytorium cyfrowe: Scan the World

INFO: Naprawdę fajna sprawa :) Muzea i instytucje kultury wspólnie z organizacją Scan the World stworzyli repozytorium cyfrowe zawierające 18.000 rzeźb, elementów architektury, czy przedmioty codziennego użytku, od starożytności do współczesności. Trójwymiarowe modele rzeźb można za darmo pobrać, a następnie wydrukować za pomocą drukarek 3D. 

Felieton: Digitalizacja: OCR

Skanowanie OCR są ważnym elementem w procesie digitalizacji zwłaszcza tekstowych dokumentów. Dzięki temu możemy nie tylko zachować wspomniany dokument, ale możemy wykorzystać go w późniejszym czasie dzięki możliwości edycji tekstu.

Wyróżniamy:

  • OCR (Optical Character Recognition)
  • HCR (Handprint Character Recognition) 
  • ICR (Inteligent Character Recognition) 
  • OMR (Optical Mark Recognition)

Krótko mówiąc OCR umożliwia automatyczne wykrywanie drukowanych znaków na skanowanym dokumencie. Następnie przekształca na edytowalna wersję. Mamy dwie drogi, albo skanujemy od razu z OCR lub dopiero na etapie postprodukcji załączamy proces OCR.

Jak działa skanowanie OCR ???

Najpierw kładziemy dokument na szybie skanera, włączamy oprogramowanie do skanowania, włączamy odpowiednią opcje i naciskamy przycisk "skanuj". Wbudowane oprogramowanie (najczęściej), które wykrywa znaki znajdujące się na dokumencie, a następnie automatycznie konwertuje na cyfrowe wersje. Taki tekst można ręcznie sprawdzić i poprawić. Następnie zapisujemy w odpowiednim formacie np. docx, PDF.

Zalety skanowania OCR

  • Starsze lub nieaktualne dokumenty możemy modyfikować/aktualizować 
  • Tekst można przeszukiwać znacznie przyspieszając wyszukiwanie ważnych informacji (w formacie edytowalnym lub w pliku PDF) Tekst zajmuje znacznie mniej miejsca na dysku niż plik graficzny
  • Archiwizacja dokumentów jest po prostu szybsza

Dokładność skanowania OCR

OCR może być dokładny w 99%. Trzeba spełnić kilka warunków tj.:

  • dobry stan dokumentu
  • tekst w bloku (najlepiej tekst maszynowy)
  • odpowiednie tło dokumentu

Jeśli stan dokumentu jest zły to oczywiście procentowa dokładność spadnie. Dlatego jest niezbędna korekta OCR. Jest to praca bardzo czaso i pracochłonna zwłaszcza przy złym stanie dokumentacji.

Narzędzia wybrane: 

  • ABBYY FlexiCapture, 
  • ABBYY FineReader, 
  • ABBYY FineReader Engine
  • Tesseract OCR 

https://visualhunt.com/f5/photo/4450285105/73971ea3c8/


CYBER-ARCHIWUM #96: 4 identity security trends to watch in 2023

INFO:  https://www.helpnetsecurity.com/2023/01/10/4-identity-security-trends-to-watch-in-2023/