CYFROWE ARCHI#WA: maja 2021

poniedziałek, 24 maja 2021

Praca: SPECJALISTA DS. REALIZACJI ZADAŃ W ZAKRESIE ELEKTRONICZNEGO ZARZĄDZANIA DOKUMENTACJĄ [Warszawa, Kancelaria Prezesa Rady Ministrów]

INFO:

https://www.aplikuj.pl/oferta/1167248/specjalista-ds-realizacji-zadan-w-zakresie-elektronicznego-zarzadzania-dokumentacja-umowa-o-prace-kprm

piątek, 21 maja 2021

Narzędzie: Vandal

INFO: Fajne narzędzie Vandal - jest to rozszerzenie do Firefoxa/Chrome, które pozwala przeglądać poprzednie wersje aktualnie odwiedzanej strony (jako backend używany jest serwis Web Archive).

https://vegetableman.github.io/vandal/

czwartek, 20 maja 2021

Felieton: Digitalizacja: Eksport i weryfikacja danych w Archiwum

Import i eksport danych

Naszym cudownym archiwum cyfrowym ważna jest kwestia importowania i eksportowania danych. Oczywiście dokumenty do systemu nie pochodzą tylko z digitalizacji, ale mamy też dokumenty born digita ze źródeł obcych jak i własnych. Import tych dokumentów musi obejmować wszystkie dostępne na rynku formaty zamknięte jak i otwarte. W biznesie będziemy mieli takie dokumenty jak: dowody nadania, umowy z kontrahentami, rozliczenia podatkowe, deklaracje, wzory pism, ustawy, rozporządzenia, akty notarialne, korespondencja, wnioski urlopowe, podania i inne. Ważne jest aby po digitalizacji nasze dane można było odczytać i modyfikować w różnych (także zewnętrznych) systemach. Dlatego w imporcie jak i eksporcie musimy mieć możliwość dostęp do cyfrowych formatów m.in.:

CSV
XML
pliki graficzne (jpg, png, tiff, bmp) pliki tekstowe (txt, doc, docs)
pliki dźwiękowe (mp3, wav) pliki hybrydowe (PDF, PDF/A)

Indeksowanie

W archiwach najczęściej tworzy się indeksy osobowe, geograficzne, rzeczowe. W biznesie tych danych jest o wiele więcej. Przykładowo jedna firma może wyszukiwać faktury po dacie, druga firma będzie wyszukiwała po numerze faktury, inna firma wybierze inny element itd.. W zależności jakie nam są potrzebne dane to takie zczytujemy do systemu. Dlatego też warto tworzyć tzw. słowniki kontrolowane. Krótko mówiąc słownik jest listą terminów i wyrażeń, które mogą zostać użyte w celu tworzenia metadanych. Jeśli słownik, który używamy jest znany i rozwijany to może nam pomóc stworzenia bardziej zaawansowanych mechanizmów wyszukiwania. Ogólnie taki słownik pomaga poprawić wyniki wyszukiwania w systemie. Mamy kilka typów słowników kontrolowanych tj.: listy terminów, tezaurusy czy hasła przedmiotowe, hasła wzorcowe itp.. Te typy słowników różnią się one od siebie minimalnie. Jednak wszystkie służą do tworzenia (dobrych) metadanych.

Weryfikacja

Jeśli na którymś etapie zrobiliśmy błąd to w zasadzie musimy cofnąć się do początku tj. do zeskanowania ponownie dokumentu dlatego ważna jest weryfikacja na każdym etapie digitalizacji czy tworzenia cyfrowego archiwum. Gdy skanujemy dokument - weryfikacja, wprowadzanie metadanych - weryfikacja, OCR - weryfikacja... każdy etap jest ważny !!!. Dla oszczędności czasu niekiedy przyjmuje się że weryfikacji poddajemy 20-30 % zbioru. Jeśli mamy czas i zasoby ten procent musi być większy.

Artykuł: The MegaPixel Paradox

INFO: Ciekawy temat - wzrost megapikseli nie zawsze daje lepszą jakość... wyjaśnienie w artykule :)

https://e-imagedata.com/assets/data/MegaPixel_Paradox_2019_2.pdf

wtorek, 18 maja 2021

Praca: Wsparcie działu digitalizacji i post-produkcji [Warszawa, Kino Polska TV S.A.]

INFO:

https://www.pracuj.pl/praca/wsparcie-dzialu-digitalizacji-i-post-produkcji-warszawa,oferta,1000946900?sendid=2a9196f7-2cc0-4fb9-99bd-8f3c64ad9e81&send_date=2021-05-18&utm_source=ja&utm_medium=email&utm_campaign=prog_ja_top

poniedziałek, 17 maja 2021

Zasoby: Download 2,500 Beautiful Woodblock Prints and Drawings by Japanese Masters

INFO: Jeśli ktoś lubi japońskie klimaty jak ja to polecam ściągnąć zeskanowane w wysokiej rozdzielczości rysunki i drzeworyty ze strony Biblioteki Kongresu.

Fine Prints: Japanese, Pre-1915, Available Online | Library of Congress

Nowy wygląd www.szukajwarchiwach.gov.pl

INFO: Mieliśmy ciemny motyw, teraz mamy jasny, pytanie jak z wyszukiwaniem ponieważ jest to ostatnio pięta achillesowa systemu. Jednak zapraszam na testowanie i wyszukiwanie :)

https://www.szukajwarchiwach.gov.pl/

piątek, 14 maja 2021

Wiedza: JPEG XL

INFO: JPEG XL jest format graficzny obsługujący zarówno kompresję stratną, jak i bezstratną. Raczej TIFFa nie zastąpi ale leciwego, zwykłego JPG-a tak o ile stanie się popularny na wielu platformach. Mamy przecież do dyspozycji bezstratnego JPG2000, który nie zastąpił zwykłej wersji. Obecnie format ten można włączyć w przeglądarkach internetowych: Chrome, Firefox, Edge

Więcej o formacie:

https://pl.wikipedia.org/wiki/JPEG_XL

https://jpeg.org/jpegxl/

Zasoby: Leonardo da Vinci’s Notebooks Online

INFO: W artykule mamy zbiór miejsc gdzie można przeglądać zdigitalizowane notatki Leonardo da Vinci.

https://www.openculture.com/2021/05/where-to-read-leonardo-da-vincis-notebooks-online.html?fbclid=IwAR0OGt3kllzdahNlInGbAg-shew_9MR_mclt85tnGUGPBPvKZVz_A1Pgoqc

Artykuł: Archiwa Państwowe przyśpieszają

INFO: Netia stworzy wreszcie dla Archiwów Państwowych zintegrowany system cyfrowy. Taki system powinien już powstać dawno. Lepiej późno niż wcale :)

Więcej informacji na stronie NDAP https://www.archiwa.gov.pl/pl/aktualnosci/5399-archiwa-panstwowe-w-zintegrowanym-systemie-cyfrowym?fbclid=IwAR2Foc-ChjihrEO1xzM-DF0a6iws2BsgZ39LD7T0yMxl119Qo_BMRgqvyZA

Praca: Specjalista w projekcie badawczym [Poznań, Uniwersytet im. Adama Mickiewicza]

INFO:

https://www.pracuj.pl/praca/specjalista-w-projekcie-badawczym-ncn-sonata-bis-7-pt-punktoza-w-czasie-systemow-poznan,oferta,1000939633?sendid=3ec960a3-6fc7-44e9-85c7-75cda6acc6d5&send_date=2021-05-14&utm_source=ja&utm_medium=email&utm_campaign=prog_ja_top

czwartek, 13 maja 2021

Felieton: Digitalizacja: Metadane

Bez dobrych metadanych nie ma dobrej digitalizacji. Dostarczają informacji umożliwiających uporządkowanie danych, pojęć. Krótko mówiąc metadane to dane o danych. Szersza definicja metadanych, określa je jako informacje, które opisują, lokalizują, pomagają w przeszukiwaniu zbioru informacji. Wszystkie te typy metadanych muszą należycie charakteryzować dany dokument tak aby użytkownik mógł zrozumieć m.in. jego zawartość, źródło pochodzenia, warunki wykorzystania.

Mamy dwie drogi udostępniania metadanych: XML (oparty na strukturze drzewa) i RDF.

XML (ang. Extensible Markup Language, w wolnym tłumaczeniu Rozszerzalny Język Znaczników) – jest uniwersalnym językiem znaczników przeznaczony do reprezentowania różnych danych w strukturalizowany sposób.

Natomiast RDF (ang. Resource Description Framework) jest językiem pozwalającym na opisywanie zasobów sieci Web, ze składnią opartą na XML. Założeniem RDF jest opis zasobu za pomocą wyrażenia składającego się z trzech elementów: podmiotu, orzeczenia/predykatu (własność) i dopełnienia/obiektu (wartość).

Do dyspozycji mamy trzy podstawowe rodzaje metadanych, które należy wziąć pod uwagę:

Opisowe - Opisują obiekt i służą do jego identyfikacji i wyszukiwania. Zawierają takie elementy, jak tytuł, autor, słowa kluczowe.
Strukturalne - Opisują relacje między obiektami i ich elementami. Na przykład, jak strony składają się na rozdziały, a rozdziały na książkę.
Administracyjne - Dostarczają informacji, które pomagają w zarządzaniu obiektem. Informują, kiedy i jak obiekt został stworzony, kto może mieć do niego dostęp. Zawierają też informacje techniczne na temat obiektu, chociażby jaki jest rodzaj pliku, w którym został zapisany.

Metadane możemy podzielić jeszcze ze względu na kryterium czasu, w którym zostały utworzone:

metadane zbierane w czasie projektu
metadane tworzone w czasie powstawania systemu
metadane tworzone podczas uruchamiania systemu
metadane statyczne
metadane dynamiczne
metadane krótkoterminowe
metadane długoterminowe.

Odpowiednie metadane trzeba dobrać do odpowiednich zbiorów. Wynika to specyfiki każdej instytucji/organizacji/firmy. Przy wyborze metadanych zwracamy uwagę na:

rodzaj zgromadzonych w instytucji obiektów
dostosowanie opisów do obiektów fizycznych i cyfrowych
cele digitalizacji

W archiwach czy bibliotekach mamy wiele standardów metadanych m.in.:

Dublin Core https://pl.wikipedia.org/wiki/Dublin_Core
EAD https://en.wikipedia.org/wiki/Encoded_Archival_Description
METS http://www.loc.gov/standards/mets/
MARC XML https://www.loc.gov/standards/marcxml/
MARC 21 https://www.loc.gov/marc/bibliographic/

Ciekawostka: Mapka pokazująca rozmieszczenie komputerów w województwach w 1975 roku

INFO: Ciekawa mapka pokazująca rozmieszczenie komputerów w województwach w 1975 roku Oczywiście ten stan to z fabryk i instytucji... Teraz ta mapka miała sens gdyby były to superkomputery. Marzenia... :) (mapka pochodzi z profilu Polskie Komputery na FB)

środa, 12 maja 2021

Webinar: Blockchain w archiwum - spotkanie wirtualne z prelekcją i dyskusją - IFAR

INFO: Zapraszam moją prelekcję o blockchainie i archiwach:)

http://www.ifar.pl/index.php?topic=4247.msg28427;topicseen#msg28427

wtorek, 11 maja 2021

Artykuł: National Archives of Australia ostrzega

INFO: NAA stara się się zdigitalizować ponad 11 milionów pozycji fotograficznych i 400 000 pozycji audiowizualnych na taśmie magnetycznej i kliszy, które mogą zostać utracone w ciągu najbliższych pięciu do dziesięciu lat z powodu zniszczenia lub starzenia się sprzętu odtwarzającego. Brakuje jednak funduszy. Według szacunków NAA zasób audiowizualny jest zdigitalizowany w 6%.

Więcej na:

https://www.abc.net.au/news/2021-04-26/national-archives-warns-history-will-be-lost-without-funding/100095012?utm_source=Corporate+Newsletter&utm_campaign=d780c8595a-Imaging_Archiving_November_17_COPY_19&utm_medium=email&utm_term=0_3b149b90de-d780c8595a-304584753&goal=0_3b149b90de-d780c8595a-304584753

Artykuł: ‘Hopefully, it’s all been digitised . . .’

INFO: ‘Hopefully, it’s all been digitised . . .’ to tytuł artykułu o pożarze czytelni Jagger Library na Uniwersytecie w Kapsztadzie. System ppoż. zadziałał uniemożliwiając rozprzestrzenienie ognia dalej. Niestety większość zniszczonych materiałów nie było zdigitalizowanych. To pokazuje jak ważny jest ten proces w archiwach, bibliotekach i w innych instytucji kultury.

Więcej o pożarze przeczytacie tu:

https://mg.co.za/education/2021-04-29-hopefully-its-all-been-digitised/?utm_source=Corporate+Newsletter&utm_campaign=d780c8595a-Imaging_Archiving_November_17_COPY_19&utm_medium=email&utm_term=0_3b149b90de-d780c8595a-304584753&goal=0_3b149b90de-d780c8595a-304584753

Narzędzie: Squoosh - narzędzie do kompresji i zmiany wymiarów grafik z zachowaniem ich jakości

INFO:

https://squoosh.app/

poniedziałek, 10 maja 2021

Konferencja: Wirtualne Forum 2021: eVault 2.0 – jak zarządzać danymi i dokumentami

INFO: Ta konferencja to w zasadzie reklama narzędzia eVault jednak chyba warta się zapisać. Z doświadczenia wiem, że czasami można dowiedzieć fajnych rzeczy ;)

https://reach.ironmountain.com/2021PLVirtualForumeVault26maja

Felieton: Słowa Kluczowe

Bardzo ważną kwestią w wyszukiwaniu dokumentów są słowa kluczowe, Dzięki nim możemy szybko odnaleźć dany dokument no chyba, że mamy źle dobrane tagi lub w ogóle ich dany dokument nie posiada. Krótko pisząc słowa kluczowe są to wyrazy lub wyrażenia wybrane z tytułu, tekstu dokumentu lub spoza tekstu, (np. ze słownika słów kluczowych) charakteryzujące jego treść.

Jakie powinno wyglądać słowo - klucz???

powinno być wyrazem języka naturalnego o dużej wartości znaczeniowej
mogą być: rzeczowniki, przymiotniki czy też liczebniki przekształcone w rzeczowniki
nie mogą być : spójniki, zaimki, przyimki, terminy o charakterze ogólnym lub terminy występujące powszechnie
słowa kluczowe podajemy najczęściej w pierwszym przypadku liczby pojedynczej.
słowo-klucz może być pojedynczym wyrazem lub wielowyrazową frazą

Przykłady:

1. Laureaci konkursu Digital Ars o sztuce tworzonej przez AI

Słowa kluczowe: LAUREAT, KONKURS, DIGITAL ARS, SZTUKA, AI, KOMPUTERY, ALGORYTMY

2. Pierwsze wydanie analiz Cool Guys Capital.

Słowa kluczowe: WYDANIE, ANALIZA, COOL GUYS CAPITAL, BIZNES, E-MAIL, FINANSE

piątek, 7 maja 2021

Ciekawostka: Digitalizacja 3D

INFO: Jak dla mnie to bomba, wtedy widać sens digitalizacji na każdym poziomie :)

https://sketchfab.com/models/91756bf3395542a289c95e0a28d3ef94/embed?autostart=1&fbclid=IwAR10FSNKj02kP6hucbKQ_1SmgeGO2N2sQqkZ7Ks6H3tv6_l_lLpGW43BkkE

czwartek, 6 maja 2021

Narzędzie: New emulation tool unlocks a world of knowledge from old CD-ROMs

INFO: Yale University Library uruchomiła nowe narzędzie online - Yale Library Emulation Viewer, które umożliwia swoim użytkownikom dostęp do przestarzałych dysków CD-ROM w obecnych systemach komputerowych. Więcej na:

https://web.library.yale.edu/news/2021/04/new-emulation-tool-unlocks-world-knowledge-old-cd-roms

Praca: Młodszy specjalista ds. obsługi archiwum zakładowego [Warszawa, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy]

INFO:

https://www.pracuj.pl/praca/mlodszy-specjalista-ds-obslugi-archiwum-zakladowego-warszawa,oferta,1000920415?sendid=a39dc019-2330-469f-888a-6cba42f53e79&send_date=2021-05-06&utm_source=ja&utm_medium=email&utm_campaign=prog_ja_top

środa, 5 maja 2021

Zasoby: Muzealne repozytorium cyfrowe: Scan the World

INFO: Naprawdę fajna sprawa :) Muzea i instytucje kultury wspólnie z organizacją Scan the World stworzyli repozytorium cyfrowe zawierające 18.000 rzeźb, elementów architektury, czy przedmioty codziennego użytku, od starożytności do współczesności. Trójwymiarowe modele rzeźb można za darmo pobrać, a następnie wydrukować za pomocą drukarek 3D.

https://www.myminifactory.com/scantheworld/

Felieton: Digitalizacja: OCR

Skanowanie OCR są ważnym elementem w procesie digitalizacji zwłaszcza tekstowych dokumentów. Dzięki temu możemy nie tylko zachować wspomniany dokument, ale możemy wykorzystać go w późniejszym czasie dzięki możliwości edycji tekstu.

Wyróżniamy:

OCR (Optical Character Recognition)
HCR (Handprint Character Recognition)
ICR (Inteligent Character Recognition)
OMR (Optical Mark Recognition)

Krótko mówiąc OCR umożliwia automatyczne wykrywanie drukowanych znaków na skanowanym dokumencie. Następnie przekształca na edytowalna wersję. Mamy dwie drogi, albo skanujemy od razu z OCR lub dopiero na etapie postprodukcji załączamy proces OCR.

Jak działa skanowanie OCR ???

Najpierw kładziemy dokument na szybie skanera, włączamy oprogramowanie do skanowania, włączamy odpowiednią opcje i naciskamy przycisk "skanuj". Wbudowane oprogramowanie (najczęściej), które wykrywa znaki znajdujące się na dokumencie, a następnie automatycznie konwertuje na cyfrowe wersje. Taki tekst można ręcznie sprawdzić i poprawić. Następnie zapisujemy w odpowiednim formacie np. docx, PDF.

Zalety skanowania OCR

Starsze lub nieaktualne dokumenty możemy modyfikować/aktualizować
Tekst można przeszukiwać znacznie przyspieszając wyszukiwanie ważnych informacji (w formacie edytowalnym lub w pliku PDF) Tekst zajmuje znacznie mniej miejsca na dysku niż plik graficzny
Archiwizacja dokumentów jest po prostu szybsza

Dokładność skanowania OCR

OCR może być dokładny w 99%. Trzeba spełnić kilka warunków tj.:

dobry stan dokumentu
tekst w bloku (najlepiej tekst maszynowy)
odpowiednie tło dokumentu

Jeśli stan dokumentu jest zły to oczywiście procentowa dokładność spadnie. Dlatego jest niezbędna korekta OCR. Jest to praca bardzo czaso i pracochłonna zwłaszcza przy złym stanie dokumentacji.

Narzędzia wybrane:

ABBYY FlexiCapture,
ABBYY FineReader,
ABBYY FineReader Engine
Tesseract OCR

https://visualhunt.com/f5/photo/4450285105/73971ea3c8/