wtorek, 20 października 2020

Felieton: WSTĘP DO METADANYCH

Dzięki metadanym możemy uporządkować nasz informacyjny świat (prywatny i ten zawodowy). W digitalizacji (a także w archiwizacji), do której się odnoszę metadane pełnią kapitalną rolę. Bo tak naprawdę bez dobrych metadanych nie ma dobrej digitalizacji.

#Definicja

Krótko mówiąc metadane to dane o danych. Natomiast oficjalna definicja to:

„Metadane to ustrukturyzowane informacje opisujące, tłumaczące, lokalizujące i ułatwiające we wszelki inny sposób odnalezienie, wykorzystanie lub zarządzanie zasobem informacji. Metadane często określa się mianem „danych o danych” albo „informacji o informacjach”

National Information Standards Organization

http://www.niso.org/publications/press/UnderstandingMetadata.pdf

Na naszym podwórku definicja metadanych została też określona w Rozporządzeniu MSWiA z dnia 30 X 2006 r. w sprawie niezbędnych elementów struktury dokumentów elektronicznych jako:

„zestaw logicznie powiązanych z dokumentem elektronicznym usystematyzowanych informacji opisujących ten dokument, ułatwiających jego wyszukiwanie, kontrolę, zrozumienie i długotrwałe przechowanie oraz zarządzanie”.

Rozporządzenie to powstało w oparciu o standard Dublin Core Metadata Initiative.

#Słownik terminów metadanych

http://skryba.inib.uj.edu.pl/~nahotko/metadane/slownik.htm#ods03

#Podział metadanych

Metadane można podzielić z grubsza na 3 rodzaje: 

  • administracyjne (informacje dotyczące lokalizacji, gromadzenia)

  1. prawa  (twórców, autorskie, licencje, itd.)
  2. techniczne (formaty, kodeki, itd.)
  3. fizyczne (rodzaj nośnika, kolor, itd.)
  4. dotyczące przechowywania (stan zachowania, możliwość odtwarzania, warunki przechowywania)

  • opisowe (narzędzia wyszukiwawcze, indeksy)

  • strukturalne (relacje między obiektami i ich elementami)

Wszystkie te metadane muszą należycie charakteryzować dany dokument, tak aby każdy użytkownik mógł zrozumieć m.in. jego zawartość, źródło pochodzenia, warunki wykorzystania. Dodatkowo metadane obiektów cyfrowych mogą być dołączone do plików tj. metadane zewnętrzne lub stanowić część struktury plików tj. metadane wewnętrzne.

#Przykłady praktyczne metadanych m.in.:

  • autor dokumentu
  • całkowity czas edycji dokumentu
  • czas ostatniej modyfikacji dokumentu
  • rodzaj aparatu z którego zrobiono zdjęcie
  • ustawienia aparatu
  • adres IP komputera

# Standardy metadanych

  • Dublin Core Metadata Element Set (DCMES)

https://www.dublincore.org/specifications/dublin-core/dces/

  • ISAD(G) (ang. General International Standard Archival Description)

https://agad.gov.pl/?page_id=862

  • ISAAR (CPF) (ang. International Standard Archival Authority Record for Corporate Bodies, Persons and Families)

https://www.ica.org/en/isaar-cpf-international-standard-archival-authority-record-corporate-bodies-persons-and-families-2nd

  • EAD (ang. Encoded Archival Description)

https://www.loc.gov/ead/

  • MARC 21 (ang. MAchine-Readable Cataloging)

https://www.loc.gov/marc/umb/um01to06.html

  • METS (ang. Metadata Encoding and Transmission Standard)

https://www.loc.gov/standards/mets/

#Zastosowanie i korzyści metadanych

Dzięki określonej postaci metadane powinny być czytelne zarówno dla komputerów jak i dla ludzi. Mogą (muszą) być przetwarzane maszynowo i wykorzystane do w takich rzeczy jak: indeksowanie, wyszukiwanie czy przetwarzanie automatyczne

Dzięki metadanym przede wszystkim szybciej uzyskujemy informacje na temat zbiorów danych, dostępnych dla interesującego nas obszaru. Łatwiejsze jest też zarządzanie zasobami danych w obrębie danej instytucji/organizacji.

# Sposoby udostępniania metadanych

Tak naprawdę mamy dwa sposoby udostępniania metadanych. Pierwsze to XML (ang. Extensible Markup Language), a drugie to RDF (ang. Resource Description Framework).

Więcej o XML: https://www.w3schools.com/xml/default.asp 

Więcej o RDF: https://www.w3schools.com/xml/xml_rdf.asp 

#Co to jest XML/RDF

Generalnie dokumenty XML są plikami tekstowymi jako uproszczona część Standard Generalized Markup Language (SGML). Dokumenty XML służą do opisywanie danych, które potem są przechowywane. Wspomniany RDF natomiast opisuje zasoby sieci Web, ze składnią opartą na XML za pomocą wyrażenia składającego się z trzech elementów

  • podmiotu
  • orzeczenia/predykatu (własność)
  • dopełnienia/obiektu (wartość)

#Jak otworzyć plik XML?

Jak już wcześniej wspomniałem pliki XML są plikami tekstowymi, więc można otwierać lub edytować dowolnym edytorem tekstu np. notatnik, notepad++. Jest też sporo edytorów online.

#Zapis i struktura dokumentów XML

Na strukturę dokumentu XML składa przede wszystkim:

  • prolog (w takim prologu umieszcza się zwykle deklaracje)
  • elementy (podstawowa jednostka strukturalna dokumentu XML, wyróżniamy element główny i pozostałe elementy potomne)
  • atrybuty (każdy znacznik może mieć nieskończoną liczbę atrybutów, które precyzują informacje zawarte w elementach)
  • komentarze (pozwalają na dodanie uwag tylko w czasie edycji dokumentu)
  • encje tekstowe (rodzaju szablonów tekstu, w tym miejscu możemy umieścić niedozwolone znaki)

#Przykład dokumentu XML do obiektu cyfrowego w serwisie Polona:

<?xml version="1.0" encoding="UTF-8"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

         xmlns:dc="http://purl.org/dc/elements/1.1/">

   <rdf:Description rdf:about="http://polona.pl/item/31999432/">

      <title xml:lang="pl">Jak żyć z ludźmi? : popularny wykład zwyczajów towarzyskich.</title>

      <alternative xml:lang="pl">Katechizm życia.</alternative>

      <date xml:lang="pl">[1898]</date>

      <dateSys xml:lang="pl">1898-01-01</dateSys>

      <language xml:lang="pl">pol</language>

      <country xml:lang="pl">pl </country>

      <imprint xml:lang="pl">Warszawa : Księgarnia Warszawska, [1898] ([Warszawa] : Tow. Kom. St. Zaleski).</imprint>

      <type xml:lang="pl">poradniki</type>

      <subject xml:lang="pl">Savoir-vivre DBN</subject>

      <signature xml:lang="pl">I 1.576.616</signature>

      <rights xml:lang="pl">Domena Publiczna. Wolno zwielokrotniać, zmieniać i rozpowszechniać oraz wykonywać utwór, nawet w celach komercyjnych, bez konieczności pytania o zgodę. Wykorzystując utwór należy pamiętać o poszanowaniu autorskich praw osobistych Twórcy.</rights>

      <recordNo xml:lang="pl">b0000001638990</recordNo>

      <edition xml:lang="pl">Wyd. 3.</edition>

      <physicalDescription xml:lang="pl">77, III s. ; 14 cm</physicalDescription>

      <literatura xml:lang="pl">Estr XIX t. 2 s. 166</literatura>

      <tags xml:lang="pl">Savoir-vivre</tags>

      <digitalCopy xml:lang="pl">Zakład Reprografii i Digitalizacji Biblioteki Narodowej</digitalCopy>

      <accessibility xml:lang="pl">dostęp publiczny</accessibility>

      <source xml:lang="pl">Biblioteka Narodowa</source>

   </rdf:Description>

</rdf:RDF>

#Zarządzanie metadanymi

Aby nimi dobrze zarządzać musimy spełnić kilka warunków tzn. metadane muszą być:

  • dostępne  (muszą być przechowywane w dostępnym miejscu)
  • dobrej jakości (muszą być kompletne, precyzyjne i czytelne)
  • trwałe (muszą być przechowywane przez określony czas ponieważ życie metadanych jest dłuższe od życia samych danych. Metadane często powstają przed zebraniem samych danych, później te metadane muszą być przechowywane po usunięciu danych)

#Cykl życia metadanych

  • tworzenie
  • zarządzanie
  • aktualizacja
  • przechowywanie
  • publikacja
  • usuwanie

#Jakość metadanych w 9 krokach

  • precyzyjne metadane (czy nasz zasób informacyjny został dobrze opisany)
  • dostępność metadanych (czy mamy dostęp do metadanych w tej chwili, czy będziemy mieli dostęp do nich w przyszłości)
  • kompletność metadanych (czy zawarte zostały wszystkie istotne cechy zasobu informacyjnego)
  • zgodności metadanych z przyjętymi standardami
  • spójność metadanych (czy dane nie są sprzeczne ze sobą)
  • wiarygodność i pochodzenie metadanych (czy pochodzą z wiarygodnych źródeł)
  • czytelności metadanych (czy nadają się do odczytu, czy nie są uszkodzone, jak są udostępniane metadane)
  • istotność metadanych (czy zawierają dostateczne informacje do realizacji aktualnego zadania)
  • aktualność metadanych (czy odpowiadają bieżącym właściwościom zasobu informacyjnego)

#Słowniki kontrolowane

Słownik kontrolowany to ustalona lista słów i zwrotów, które mogą zostać użyte w celu tworzenia metadanych.

#Mapowanie metadanych

Jest to po prostu tłumaczenie metadanych z jednego formatu na inny format metadanych.

Jak już wspomniałem wszyscy zbierają metadane. Należy pamiętać, że same nie dają jeszcze dostępu do danych, do których odnoszą się te metadane. Jednak pozwalają na znalezienie dostępu do źródeł bezpośrednich. Dana organizacja/instytucja/osoba fizyczna sama musi określić czy dostęp do metadanych ma być łatwy czy utrudniony. Przykładowo Facebook wyczyszcza metadane zdjęć (EXIF), które publikujemy. W serwisie Polona mamy swobodny dostęp tj. możemy ściągnąć obiekt cyfrowy (w postaci plików JPG/PDF) oraz możemy ściągnąć pliki XML dotyczące tych obiektów.

#Zarządzanie archiwum – wybór metadanych

Jeśli chodzi o archiwizację to każda instytucja ma swoją specyfikę, która powinna uwzględniać także wybór  odpowiednich metadanych np.:

  • jakie mamy rodzaje obiektów zgromadzonych w archiwum
  • jakie są cele digitalizacji (rozpatrywanie czy obiekty mają być tylko archiwizowane czy mają też być udostępniane w sieci)
  • wybór sposobu przechowywania metadanych

Dobre wewnętrzne standardy metadanych mają kluczowe znaczenie dla długoterminowej archiwizacji. Jak już na początku wspomniałem metadane są ważne. Ułatwiają mam przede wszystkim zarządzanie dokumentami. Trzeba o tym pamiętać. Powyższy tekst to tylko wstęp/wybór ważniejszych informacji.


 

Brak komentarzy:

Prześlij komentarz

Prompty dla Archiwisty cz.1

Czas na nową serię „Prompty dla Archiwisty” , w której podzielę się pomysłami na wykorzystanie promptów w pracy archiwalnej. Znajdziesz tu z...