środa, 20 listopada 2024

Prompty dla Archiwisty cz.1

Czas na nową serię „Prompty dla Archiwisty”, w której podzielę się pomysłami na wykorzystanie promptów w pracy archiwalnej. Znajdziesz tu zarówno te, które sam opracowałem, jak i te wyszukane w odmętach Internetu. Wszystko po to, by ułatwić pracę archiwalną. Będzie prosto i konkretnie. Zapraszam!

Prompt: Zarządzanie Innowacjami

Wygeneruj kompleksowy plan zarządzania innowacjami w organizacji [rodzaj działalności lub branża], koncentrując się na [konkretnych celach lub wyzwaniach związanych z innowacjami] i biorąc pod uwagę [docelową grupę odbiorców lub kluczowych interesariuszy]. 

Rodzaj działalności/branża: [Wstaw tutaj] 

Cele/wyzwania innowacyjne: [Wstaw tutaj] 

Docelowi odbiorcy/interesariusze: [Wstaw tutaj]

Branża, jak łatwo się domyślić, to archiwistyka, a za główny cel obrałem zastosowanie technologii OCR (Optical Character Recognition). Dlaczego właśnie to? OCR pozwala na przekształcenie fizycznych dokumentów i obrazów w cyfrowe, wyszukiwalne treści, co znacząco ułatwia dostęp do zasobów archiwalnych.

Jeśli chodzi o docelowych odbiorców, skupiłem się na twórcach kultury i mediów: dziennikarzach, filmowcach, pisarzach oraz artystach. To właśnie oni najczęściej poszukują materiałów i inspiracji ukrytych w archiwach, a OCR może stać się dla nich kluczem do szybszego i bardziej efektywnego odkrywania tych zasobów. Dzięki temu archiwa mogą stać się bardziej otwarte i przyjazne dla współczesnych użytkowników.

A oto nasz ejaj (ChatGPT 4o) stworzył. Oczywiście zawsze pamiętamy o potrzebie weryfikacji takiej odpowiedzi. 

Plan Zarządzania Innowacjami w Branży Archiwistycznej

1. Wstęp

Wprowadzenie technologii OCR (Optical Character Recognition) do archiwów jest kluczowym krokiem w kierunku cyfryzacji i zwiększenia dostępności zasobów dla twórców kultury i mediów, takich jak dziennikarze, filmowcy, pisarze oraz artyści. Ten plan koncentruje się na skutecznej implementacji OCR, uwzględniając potrzeby tych grup oraz wyzwania technologiczne.


2. Cele Zarządzania Innowacjami

  1. Zwiększenie dostępności zasobów archiwalnych:

    • Przekształcenie dokumentów w cyfrowe i wyszukiwalne treści.
    • Ułatwienie twórcom kultury szybkiego dostępu do potrzebnych materiałów.
  2. Poprawa jakości danych:

    • Minimalizacja błędów w rozpoznawaniu tekstu i zapewnienie wysokiej dokładności technologii OCR.
  3. Dostosowanie narzędzi do potrzeb twórców:

    • Umożliwienie intuicyjnego wyszukiwania i analizowania danych.
  4. Promocja archiwów jako źródła inspiracji:

    • Zwiększenie świadomości o wartości archiwów w procesach twórczych.

3. Etapy Zarządzania Innowacjami

Etap 1: Diagnoza i Analiza Potrzeb

  • Identyfikacja potrzeb twórców kultury:
    • Przeprowadzenie wywiadów i ankiet wśród dziennikarzy, pisarzy, filmowców oraz artystów.
    • Zrozumienie, jakie typy materiałów są najbardziej pożądane (np. fotografie, dokumenty tekstowe, mapy).
  • Analiza zasobów archiwalnych:
    • Ocena jakości i formatu istniejących materiałów.
    • Weryfikacja, które zasoby są priorytetowe do digitalizacji.

Etap 2: Dobór Technologii i Partnerów

  • Wybór technologii OCR:

    • Testowanie dostępnych rozwiązań (np. ABBYY, Tesseract, Google Vision).
    • Wybór narzędzi, które najlepiej rozpoznają historyczne i nietypowe czcionki.
  • Współpraca z ekspertami:

    • Nawiązanie współpracy z firmami technologicznymi i instytucjami naukowymi.
    • Zaangażowanie specjalistów ds. digitalizacji i historyków.

Etap 3: Implementacja

  • Digitalizacja zasobów:

    • Utworzenie zespołu ds. digitalizacji dokumentów.
    • Stworzenie procedur skanowania i obróbki danych.
  • Trening algorytmów OCR:

    • Dostosowanie technologii do specyficznych materiałów (np. stare druki, dokumenty zniszczone).
  • Tworzenie platformy dostępu:

    • Budowa portalu, który umożliwia wyszukiwanie treści przez frazy kluczowe, kontekst i metadane.

Etap 4: Promocja i Edukacja

  • Promowanie zasobów archiwalnych:

    • Organizowanie warsztatów dla twórców kultury o korzystaniu z narzędzi OCR.
    • Kampanie informacyjne prezentujące potencjał archiwów jako źródła inspiracji.
  • Szkolenie personelu:

    • Wdrażanie szkoleń z obsługi narzędzi OCR i zarządzania cyfrowymi zasobami.

Etap 5: Monitorowanie i Doskonalenie

  • Ewaluacja efektów:

    • Zbieranie informacji zwrotnych od użytkowników.
    • Ocena jakości i przydatności udostępnionych danych.
  • Aktualizacja technologii:

    • Ciągłe doskonalenie algorytmów OCR w odpowiedzi na nowe wyzwania i potrzeby.

4. Kluczowi Interesariusze

  1. Twórcy kultury i mediów:

    • Korzystają z zasobów archiwalnych jako materiałów źródłowych i inspiracyjnych.
  2. Firmy technologiczne:

    • Dostarczają narzędzia i wsparcie techniczne dla implementacji OCR.
  3. Pracownicy archiwów:

    • Odpowiedzialni za proces digitalizacji i zarządzanie zasobami.
  4. Instytucje edukacyjne i naukowe:

    • Współpracują przy rozwoju technologii i promocji archiwów.

5. Mierniki Sukcesu

  • Liczba zdigitalizowanych i udostępnionych dokumentów.
  • Procent poprawności rozpoznawania tekstu przez OCR.
  • Liczba użytkowników platformy i częstotliwość korzystania z zasobów.
  • Liczba nowych projektów twórczych powstałych z wykorzystaniem zasobów archiwalnych.

6. Potencjalne Ryzyka

  • Niedoszacowanie kosztów:

    • Konieczność pozyskania dodatkowego finansowania.
  • Problemy z ochroną praw autorskich:

    • Weryfikacja, które materiały mogą być legalnie udostępniane.
  • Ograniczona adaptacja przez użytkowników:

    • Brak wystarczającego szkolenia lub promocji może ograniczyć zainteresowanie.

7. Harmonogram

EtapCzas trwaniaDziałania
Diagnoza i analiza3 miesiąceAnkiety, analiza zasobów.
Dobór technologii2 miesiąceTestowanie i wybór technologii.
Implementacja6-12 miesięcyDigitalizacja, wdrożenie OCR.
Promocja i edukacja6 miesięcy (równolegle)Warsztaty, kampanie promocyjne.
Monitorowanie i ewaluacjaStały procesZbieranie opinii i doskonalenie.

Podsumowanie

Wdrożenie technologii OCR w archiwach skierowanych na potrzeby twórców kultury i mediów pozwoli zwiększyć dostępność i przydatność zasobów. Kluczem do sukcesu będzie współpraca z partnerami technologicznymi, edukacja odbiorców oraz stała analiza efektów i potrzeb użytkowników.

Odpowiedź jest dość precyzyjna i stanowi solidną bazę. Osoba posiadająca wiedzę i doświadczenie w tym zakresie może szybko ją zmodyfikować, dostosować do swoich potrzeb, a następnie efektywnie wykorzystać. 


wtorek, 12 listopada 2024

Projekt cyfrowego archiwum z AI? cz.3

Dwa testy już za mną – jeden zakończył się sukcesem, drugi niestety nie. Teraz czas na trzecią próbę: test Gemini od Google. Pytanie pozostaje takie samo jak poprzednio. Oto wynik: 

Rozbudowa projektu cyfrowego archiwum dziedzictwa kulturowego

Świetny początek! Przedstawiony przez Ciebie projekt stanowi solidną podstawę do stworzenia efektywnego cyfrowego archiwum. Chciałbym go rozbudować, uwzględniając dodatkowe aspekty, które mogą znacząco zwiększyć wartość i użyteczność takiego przedsięwzięcia.

1. Szczegółowa analiza potrzeb użytkowników

  • Kto będzie korzystał z archiwum? Naukowcy, studenci, mieszkańcy regionu, turyści?
  • Jakie informacje będą dla nich najważniejsze? Fakty historyczne, kontekst kulturowy, biografie twórców?
  • W jaki sposób chcą oni przeglądać materiały? Liniowo, tematycznie, poprzez interaktywne mapy?

Na podstawie tych informacji można dostosować interfejs użytkownika, funkcje wyszukiwania i sposób prezentacji materiałów.

2. Zaawansowane funkcje wyszukiwania

  • Wyszukiwanie pełnotekstowe: Umożliwi szybkie znajdowanie informacji w opisach, tytułach i nawet w treści zdigitalizowanych dokumentów.
  • Filtry: Pozwolą na precyzyjne zawężanie wyników wyszukiwania (np. data, autor, typ materiału).
  • Sugestie: Będą podpowiadały użytkownikom podobne materiały lub uzupełniające informacje.

3. Prezentacja materiałów

  • Wysoka jakość: Obrazy powinny być wyraźne i o wysokiej rozdzielczości.
  • Różnorodność formatów: Teksty, audio, wideo, 3D.
  • Interaktywność: Możliwość powiększania, obracania, słuchania, oglądania w różnych prędkościach.
  • Kontekst: Prezentacja materiałów w szerszym kontekście historycznym i kulturowym.

4. Ochrona danych i trwałość

  • Bezpieczeństwo: Silne hasła, regularne aktualizacje oprogramowania, kopie zapasowe.
  • Zgodność ze standardami: Przestrzeganie międzynarodowych standardów dotyczących archiwizacji cyfrowej (np. OAIS).
  • Trwałość nośników: Wybór trwałych nośników danych i regularna migracja danych.

5. Współpraca z innymi instytucjami

  • Udostępnianie danych: Współpraca z innymi instytucjami w celu tworzenia większych, bardziej kompleksowych zbiorów.
  • Standaryzacja metadanych: Używanie wspólnych standardów metadanych, co ułatwi integrację danych.
  • Projekty badawcze: Wspólne realizowanie projektów badawczych, wykorzystujących zasoby archiwum.

6. Edukacja i outreach

  • Programy edukacyjne: Warsztaty, lekcje, wykłady dla różnych grup wiekowych.
  • Publikacje: Artykuły naukowe, blog, newsletter.
  • Wystawy wirtualne: Interaktywne wystawy prezentujące wybrane zbiory.

7. Finansowanie i utrzymanie

  • Źródła finansowania: Granty, dotacje, sponsorzy, crowdfunding.
  • Model biznesowy: Możliwość wprowadzenia opłat za dostęp do niektórych zasobów lub usług.
  • Zespół: Kwalifikowany zespół pracowników odpowiedzialnych za zarządzanie archiwum.

Dodatkowe aspekty:

  • Sztuczna inteligencja: Wykorzystanie AI do automatycznego rozpoznawania obiektów na zdjęciach, transkrypcji nagrań audio, czy tłumaczenia tekstów.
  • Wirtualna rzeczywistość: Tworzenie wirtualnych rekonstrukcji historycznych miejsc i obiektów.
  • Otwarte dane: Udostępnianie danych w otwartym formacie, aby umożliwić ich dalsze wykorzystanie i analizę.

Przykładowy schemat projektu:

  1. Analiza potrzeb
  2. Zbieranie i digitalizacja materiałów
  3. Tworzenie metadanych
  4. Projektowanie bazy danych
  5. Tworzenie interfejsu użytkownika
  6. Implementacja systemu
  7. Promocja i edukacja
  8. Utrzymanie i rozwój

Chętnie rozwinę któryś z tych punktów lub odpowiem na dodatkowe pytania.

Jakie aspekty projektu chciałbyś zgłębić bardziej szczegółowo?

Możemy również omówić konkretne narzędzia i technologie, które mogą być przydatne w realizacji takiego projektu.

Z tej odpowiedzi jestem zadowolony. Jest krótsza i bardziej ogólna od odpowiedzi ChatGPT. Dodatkowo, Gemini stworzył trzy pomocnicze pytania, które można wykorzystać w dalszej pracy. Zadałem następujące zapytanie:

Rozwiń wszystkie punkty naciskiem na pkt 1-4. Zaproponuj  również konkretne narzędzia i technologie, które mogą być przydatne w realizacji takiego projektu.

Oto, co otrzymałem:

Rozwinięcie projektu cyfrowego archiwum dziedzictwa kulturowego z naciskiem na punkty 1-4 oraz propozycjami narzędzi i technologii

1. Szczegółowa analiza potrzeb użytkowników

Zrozumienie użytkownika jest kluczowe dla sukcesu projektu. Należy przeprowadzić badania jakościowe i ilościowe, aby określić:

  • Profil użytkownika: Wiek, wykształcenie, zainteresowania, częstotliwość korzystania z zasobów cyfrowych.
  • Cele użytkownika: Co użytkownik chce znaleźć w archiwum? Jakie informacje są dla niego najważniejsze?
  • Doświadczenie użytkownika: Jakie są oczekiwania użytkownika co do interfejsu, funkcjonalności, estetyki?

Narzędzia:

  • Ankiety online: Google Forms, SurveyMonkey
  • Wywiady: indywidualne, grupowe
  • Testy użyteczności: prototypy, analizy behawioralne

Przykładowe pytania badawcze:

  • Jakie informacje o [obiekt kultury] chciałbyś znaleźć w naszym archiwum?
  • Jakie funkcje ułatwiłyby Ci korzystanie z archiwum (np. wyszukiwanie, filtrowanie, porównywanie)?
  • Jak często korzystasz z zasobów cyfrowych tego typu?

2. Zaplanuj proces digitalizacji

Proces digitalizacji wymaga starannego przygotowania. Należy określić:

  • Rodzaj materiałów: Fotografie, dokumenty, nagrania audiowizualne, artefakty.
  • Stan zachowania: Ocena stanu fizycznego materiałów przed digitalizacją.
  • Metody digitalizacji: Skanowanie, fotografowanie, nagrywanie.
  • Rozdzielczość i format plików: Wybór odpowiednich parametrów w zależności od rodzaju materiału i sposobu wykorzystania.
  • Metadane: Określenie minimalnego zbioru metadanych (np. tytuł, autor, data, opis) oraz sposobu ich kodowania.

Narzędzia:

  • Skanery: płaskie, książkowe, wielkoformatowe
  • Aparaty fotograficzne: cyfrowe lustrzanki, bezlusterkowce
  • Oprogramowanie do edycji obrazu: Adobe Photoshop, GIMP
  • Oprogramowanie do zarządzania metadanymi: Omeka, CollectiveAccess

3. Zaplanuj strukturę archiwum

Struktura archiwum powinna być logiczna i intuicyjna dla użytkownika. Można zastosować różne metody:

  • Hierarchiczna: Podział zbiorów na coraz mniejsze jednostki (np. kolekcje, serie, dokumenty).
  • Tematyczna: Grupuje materiały według tematu (np. historia, sztuka, kultura).
  • Chronologiczna: Uporządkowanie materiałów według daty.
  • Kombinowana: Połączenie różnych metod.

Narzędzia:

  • Oprogramowanie do zarządzania treścią (CMS): WordPress, Drupal
  • Repozytoria cyfrowe: DSpace, Fedora

4. Opracuj system zarządzania metadanymi

Metadane są kluczowe dla wyszukiwania i opisu materiałów. Należy:

  • Zdefiniować schemat metadanych: Wybór standardowego schematu (np. Dublin Core) lub stworzenie własnego.
  • Automatyzacja: Zastosowanie narzędzi do automatycznego wyodrębniania metadanych (OCR, rozpoznawanie twarzy).
  • Wielojęzyczność: Tłumaczenie metadanych na różne języki.

Narzędzia:

  • Edytory metadanych: Excel, Google Sheets
  • Oprogramowanie do zarządzania metadanymi: Omeka, CollectiveAccess

Dodatkowe narzędzia i technologie

  • Chmury obliczeniowe: Amazon Web Services, Google Cloud Platform
  • Kontenery: Docker
  • Sieci neuronowe: rozpoznawanie obrazu, przetwarzanie języka naturalnego
  • Wirtualna i rozszerzona rzeczywistość: prezentacja obiektów 3D, interaktywne wystawy

Przykładowy proces digitalizacji i zarządzania archiwum:

  1. Ocena stanu materiałów: Sprawdzenie stanu fizycznego, wybór materiałów do digitalizacji.
  2. Przygotowanie materiałów: Czyszczenie, konserwacja.
  3. Digitalizacja: Skanowanie, fotografowanie, nagrywanie.
  4. Przetwarzanie: Obróbka obrazu, konwersja formatów.
  5. Tworzenie metadanych: Opis każdego obiektu.
  6. Wgrywanie do repozytorium: Przeniesienie zdigitalizowanych materiałów do systemu zarządzania archiwum.
  7. Udostępnienie: Publikacja w Internecie.

Pamiętaj, że wybór narzędzi i technologii powinien być dostosowany do specyfiki zbiorów, budżetu i zasobów instytucji.

Chcesz skupić się na którymś z tych punktów bardziej szczegółowo? Możemy omówić kwestie takie jak:

  • Wybór odpowiedniego oprogramowania do zarządzania archiwum
  • Implementacja systemów zabezpieczeń danych
  • Tworzenie interaktywnych prezentacji materiałów
  • Promocja archiwum w mediach społecznościowych

Proszę dać znać, jakie aspekty projektu chciałbyś jeszcze rozwinąć.

Otrzymałem szczegółowo opracowaną odpowiedź, zawierającą wiele przydatnych elementów. Dużym atutem są konkretne propozycje narzędzi, schematów metadanych oraz precyzyjny opis procesu digitalizacji. Całość została opracowana w sposób przejrzysty i logicznie uporządkowany, co znacząco ułatwia zrozumienie i wdrożenie proponowanych rozwiązań. Test zakończył się sukcesem – AI prowadzi 2-1.

środa, 6 listopada 2024

Projekt cyfrowego archiwum z AI? cz.2

ChatGPT nieźle sobie poradził z tworzeniem projektu cyfrowego archiwum. Teraz przyjrzę się programowi LM Studio, czyli lokalnej AI. To ciekawa alternatywa, szczególnie pod względem ochrony danych osobowych. Dzięki instalacji modelu AI na swoim komputerze, mamy pełną kontrolę nad przetwarzanymi informacjami. Proces instalacji jest szybki i sprawny, ale warto wiedzieć, że wydajność tego typu rozwiązań zależy od naszego sprzętu.

LM Studio zawiera wgrany model Llama-3.2-1B-Instruct-Q8-GGUF, ale możemy wgrać różne inne modele. Ze względu na ograniczenia sprzętowe postanowiłem przetestować jedynie ten wymieniony. Zapytanie, jakie zadałem AI, było takie samo jak przy poprzednim teście. Wynik jednak mnie zaskoczył, ale niestety w sposób negatywny.

Projekt cyfrowego archiwum dziedzictwa kulturowego dla instytucji kulturalnej

Dziedzictwo kulturowe:

  • Fotografie

  • Dokumenty (aktualizacja i konwersja do formatu cyfrowego)

  • Mapy historyczne regionu

  • Książki, czasopisma i rękopisy

Digitalizacja:

  • Skanowanie fotografii i dokumentów

  • Konwersja map do formatu cyfrowego

Struktura archiwum:

  • Katalogi tematyczne (np. Historia miasta, Architektura, Kultura)

  • Hierarchiczna struktura katalogów i podkatalogów

System metadanych:

  • Definicja pól metadanych (tytuł, autor, data, opis, słowa kluczowe)

Dostęp do archiwum:

  • Strona internetowa z możliwością wyszukiwania po tytule, autorze, dacie i słowach kluczowych

Promocja:

  • Promocja w mediach społecznościowych (Facebook, Instagram, Twitter)

  • Współpraca z lokalnymi portalami informacyjnymi

Aspekty prawne i etyczne:

  • Ochrona praw autorskich i prywatności osób uwiecznionych w materiałach

  • Ustalenie polityki bezpieczeństwa i dostępu do archiwum

Opis raportu: Projekt cyfrowego archiwum dziedzictwa kulturowego dla instytucji kulturalnej zakłada kompleksową digitalizację materiałów historycznych oraz ich udostępnienie szerokiemu gronu odbiorców. Raport opisuje procesy digitalizacji, strukturę archiwum, system dostępu do zasobów, a także aspekty prawne i etyczne związane z projektem. Całość planowana jest jako wydanie książkowe, które będzie pełnić funkcję kompleksowego przewodnika po tworzeniu i zarządzaniu cyfrowym archiwum dziedzictwa kulturowego.

Model nie był w stanie stworzyć żadnego sensownego projektu. Wypluł tekst, który był chaotyczny, bez struktury i powtarzał "Opis raportu" wielokrotnie. W efekcie, choć LM Studio może być dobrym rozwiązaniem do mniej wymagających zadań, w kontekście tworzenia złożonych projektów cyfrowych archiwów nadal wypada znacznie słabiej w porównaniu z bardziej rozbudowanymi modelami, które działają w chmurze.

wtorek, 29 października 2024

Projekt cyfrowego archiwum z AI? cz.1

Postanowiłem sprawdzić, czy można opracować projekt Cyfrowego Archiwum (CA) dla instytucji kultury, bazując na promptach oraz wybranych narzędziach sztucznej inteligencji. Celem jest zbadanie, na ile AI może wspomóc proces tworzenia i zarządzania archiwami cyfrowymi, uwzględniając specyfikę danych kulturalnych oraz wymagania dotyczące długoterminowego przechowywania i udostępniania zasobów.

Do realizacji tego zadania wybrałem następujące narzędzia:

  1. ChatGPT – wykorzystuję to narzędzie do generowania i analizy treści, tworzenia strategii archiwizacji oraz opracowywania interaktywnych asystentów, którzy mogliby wspierać użytkowników archiwum. ChatGPT jest także przydatny w opracowywaniu dokumentacji i wytycznych dla CA.

  2. LM Studio – lokalne narzędzie do przetwarzania języka naturalnego, które umożliwia testowanie i dostosowywanie modeli językowych do specyficznych potrzeb instytucji. Dzięki LM Studio mogę trenować modele na unikalnych zbiorach danych i analizować ich skuteczność w rozpoznawaniu oraz klasyfikacji dokumentów o charakterze kulturalnym.

  3. Gemini – nowoczesna platforma AI opracowana przez Google DeepMind, która oferuje zaawansowane możliwości analizy danych, generowania opisów i metadanych, a także automatycznej klasyfikacji materiałów cyfrowych. Gemini jest idealnym narzędziem do bardziej złożonych zadań, takich jak tworzenie powiązań między zasobami, wyszukiwanie kontekstowe czy analizowanie dużych zbiorów danych w poszukiwaniu wzorców.

Aby sobie ułatwić sprawę użyłem promptu wyjściowego: Opracuj projekt Cyfrowego Archiwum (CA) dla instytucji kultury, do generatora promptów

Oto wynik: 

Opracuj projekt cyfrowego archiwum dziedzictwa kulturowego dla instytucji kulturalnej, wykorzystując najlepsze praktyki digitalizacji, archiwizacji i promocji online.


# Steps

1. **Zidentyfikuj kluczowe elementy dziedzictwa kulturowego instytucji.** Określ, jakie rodzaje materiałów (np. dokumenty, fotografie, nagrania audiowizualne, artefakty) powinny być uwzględnione w archiwum.
2. **Zaplanuj proces digitalizacji.**  Określ metody digitalizacji, formaty plików, standardy metadanych, a także narzędzia i oprogramowanie, które będą wykorzystywane. 
3. **Zaplanuj strukturę archiwum.** Stwórz hierarchiczną strukturę katalogów i podkatalogów, która ułatwi wyszukiwanie i organizację materiałów. 
4. **Opracuj system zarządzania metadanymi.** Zdefiniuj pola metadanych, które będą wykorzystywane do opisu materiałów (np. tytuł, autor, data, opis, słowa kluczowe).
5. **Zaplanuj system dostępu do archiwum.** Określ, w jaki sposób użytkownicy będą mogli uzyskać dostęp do materiałów (np. poprzez stronę internetową, aplikację mobilną).
6. **Zaplanuj działania promocyjne.** Stwórz strategię promocji archiwum w mediach społecznościowych i innych kanałach online.
7. **Zaplanuj aspekty prawne i etyczne.**  Określ, jakie prawa autorskie i inne przepisy dotyczą materiałów w archiwum oraz jak zagwarantować ochronę prywatności osób, które są w nich uwiecznione. 


# Output Format

Projekt powinien być przedstawiony w formie raportu, zawierającego:

* **Opis dziedzictwa kulturowego instytucji** (w tym rodzaje materiałów, ich znaczenie i wartość).
* **Opis procesu digitalizacji** (w tym metody, formaty, narzędzia).
* **Opis struktury archiwum** (w tym hierarchia katalogów, system metadanych).
* **Opis systemu dostępu do archiwum** (w tym platforma online, funkcje wyszukiwania).
* **Opis działań promocyjnych** (w tym strategie promocji w mediach społecznościowych i innych kanałach).
* **Opis aspektów prawnych i etycznych** (w tym kwestie praw autorskich i ochrony prywatności).


# Examples

**Przykład 1**

**Instytucja:** Muzeum Regionalne w [Nazwa miasta]
**Dziedzictwo kulturowe:** Fotografie, dokumenty, mapy związane z historią regionu.

**Projekt archiwum:**

* **Digitalizacja:** Skanowanie fotografii i dokumentów, konwersja map do formatu cyfrowego.
* **Struktura archiwum:** Katalogi tematyczne (np. Historia miasta, Architektura, Kultura).
* **System dostępu:** Strona internetowa z możliwością wyszukiwania po tytule, autorze, dacie i słowach kluczowych.
* **Promocja:** Promocja w mediach społecznościowych, współpraca z lokalnymi portalami informacyjnymi.

**Przykład 2**

**Instytucja:** Biblioteka [Nazwa biblioteki]
**Dziedzictwo kulturowe:** Książki, czasopisma, rękopisy.

**Projekt archiwum:**

* **Digitalizacja:** Skanowanie książek i czasopism, digitalizacja rękopisów.
* **Struktura archiwum:** Katalogi według autora, tytułu i tematu.
* **System dostępu:** Platforma online z możliwością wyszukiwania zaawansowanego.
* **Promocja:** Organizacja webinarów i warsztatów na temat archiwum, współpraca z uczelniami.

Takie zapytanie wkleiłem do ChatGPT. Oto wynik:

Opracowanie projektu Cyfrowego Archiwum Dziedzictwa Kulturowego dla instytucji kulturalnej wymaga starannego uwzględnienia najlepszych praktyk z zakresu digitalizacji, archiwizacji oraz promocji online. Poniżej przedstawiam kompleksowy plan, który zawiera kroki od identyfikacji kluczowych elementów dziedzictwa po stworzenie strategii promocyjnej i zarządzanie aspektami prawnymi.


Projekt Cyfrowego Archiwum Dziedzictwa Kulturowego

Instytucja: [Nazwa instytucji kulturalnej]

1. Zidentyfikowanie Kluczowych Elementów Dziedzictwa Kulturowego

Cel: Identyfikacja i opisanie materiałów o wysokiej wartości kulturowej, które zostaną uwzględnione w archiwum.

  • Typy materiałów: dokumenty historyczne, fotografie, nagrania audiowizualne, artefakty, publikacje, mapy, rękopisy, plakaty, korespondencje.
  • Kryteria wyboru: unikalność materiału, znaczenie dla historii i tożsamości regionu/kraju, wartość informacyjna dla badaczy i społeczności.

2. Proces Digitalizacji

Cel: Stworzenie procesu digitalizacji, który zachowa jakość i integralność materiałów.

  • Metody digitalizacji:
    • Skanowanie dokumentów: Wysokiej jakości skanery płaskie dla dokumentów papierowych i książek.
    • Fotografia cyfrowa: Wysokorozdzielcza fotografia artefaktów i przedmiotów trójwymiarowych.
    • Digitalizacja nagrań audiowizualnych: Konwersja VHS, filmów, taśm i nagrań audio do formatów cyfrowych.
  • Formaty plików:
    • Obrazy: TIFF, PNG (archiwalne), JPEG (do udostępniania).
    • Nagrania audio: WAV (archiwalne), MP3 (do udostępniania).
    • Wideo: MP4 (do udostępniania), formaty nieskompresowane (archiwalne).
  • Standardy metadanych: Dublin Core, MARC, czy też specyficzne dla dziedzictwa kulturalnego standardy jak METS, PREMIS.
  • Narzędzia i oprogramowanie: OCR do rozpoznawania tekstu, Adobe Photoshop do obróbki obrazów, platformy zarządzania zasobami cyfrowymi, takie jak Tropy czy Archivematica.

3. Struktura Archiwum

Cel: Zaprojektowanie hierarchicznej struktury katalogów, ułatwiającej organizację i wyszukiwanie.

  • Podział materiałów:
    • Katalogi główne: Historia, Sztuka, Muzyka, Kultura regionu, Tradycje.
    • Podkatalogi: np. w ramach Historii można stworzyć podkatalogi Okresy historyczne, Wydarzenia kluczowe, Postacie historyczne.
  • Nawigacja i wyszukiwanie: Indeksacja materiałów według kategorii, autorów, daty, słów kluczowych i tematyki.

4. System Zarządzania Metadanymi

Cel: Umożliwienie precyzyjnego opisu zasobów cyfrowych poprzez system metadanych.

  • Pola metadanych:
    • Podstawowe: Tytuł, autor, data powstania, lokalizacja, opis.
    • Zaawansowane: Język, słowa kluczowe, identyfikator unikalny, prawa autorskie, kontekst historyczny.
  • Implementacja: System zarządzania metadanymi umożliwiający łatwe dodawanie, edytowanie i przeszukiwanie metadanych oraz kompatybilność z innymi standardami (np. import/eksport do formatu XML lub JSON).

5. System Dostępu do Archiwum

Cel: Zapewnienie szerokiego dostępu do materiałów, przy jednoczesnym zachowaniu odpowiednich zabezpieczeń.

  • Platforma online: Intuicyjna strona internetowa umożliwiająca wyszukiwanie zasobów, przeglądanie i pobieranie.
  • Funkcje wyszukiwania:
    • Proste i zaawansowane wyszukiwanie (po tytule, dacie, autorze, słowach kluczowych).
    • Filtry tematyczne i możliwość sortowania według popularności, daty dodania, czy typu materiału.
  • Dostęp mobilny: Aplikacja lub wersja mobilna strony internetowej umożliwiająca przeglądanie zasobów na urządzeniach mobilnych.

6. Działania Promocyjne

Cel: Promowanie archiwum jako wartościowego zasobu kulturalnego w środowisku lokalnym i online.

  • Media społecznościowe: Regularne posty, które podkreślają unikalne zasoby archiwum i ich znaczenie.
  • Współpraca z lokalnymi mediami: Artykuły i wywiady o archiwum, prezentujące materiały o wysokiej wartości historycznej.
  • Wydarzenia edukacyjne: Organizacja webinarów, warsztatów i spotkań edukacyjnych, które przybliżają użytkownikom zawartość archiwum oraz techniki badawcze.
  • Optymalizacja SEO: Pozycjonowanie strony w wynikach wyszukiwania poprzez odpowiednie słowa kluczowe i treści związane z dziedzictwem kulturowym.

7. Aspekty Prawne i Etyczne

Cel: Zapewnienie zgodności z przepisami prawnymi i ochrony prywatności osób uwiecznionych na materiałach.

  • Prawa autorskie:
    • Identyfikacja materiałów objętych prawami autorskimi oraz uzyskanie zgód od właścicieli praw lub oznaczenie materiałów, które są w domenie publicznej.
  • Ochrona prywatności:
    • Zamazywanie lub niepublikowanie danych osobowych wrażliwych oraz wdrożenie mechanizmów ochrony osób na materiałach audiowizualnych.
  • Licencje użytkowania: Przygotowanie jasnych zasad dotyczących możliwości wykorzystywania materiałów przez użytkowników (np. licencje Creative Commons).

Format Outputu

1. Opis dziedzictwa kulturowego instytucji

  • Materiały: Fotografie, dokumenty, rękopisy, nagrania.
  • Znaczenie: Zachowanie lokalnego dziedzictwa kulturowego i historii regionu.

2. Opis procesu digitalizacji

  • Metody i formaty: Skanowanie dokumentów i fotografii, digitalizacja wideo/audio.
  • Standardy metadanych: Dublin Core, PREMIS dla zasobów cyfrowych.

3. Opis struktury archiwum

  • Katalogi i podkatalogi: Podział na tematyczne sekcje.

4. Opis systemu dostępu do archiwum

  • Platforma online: Strona internetowa z możliwością zaawansowanego wyszukiwania i aplikacją mobilną.

5. Opis działań promocyjnych

  • Strategie: Kampanie w mediach społecznościowych, wydarzenia edukacyjne, współpraca z lokalnymi mediami.

6. Opis aspektów prawnych i etycznych

  • Prawa autorskie i licencje użytkowania, ochrona prywatności.

Generalnie jestem zadowolony z odpowiedzi (jest parę niedociągnięć). Mając wiedzę i doświadczenie mogę poprawić taki tekst w kierunku bardziej technicznym. Na pewno jest to dość solidna podstawa do dalszego działania. 
 

poniedziałek, 23 września 2024

Błędy w skanowaniu dokumentów, których należy unikać

Skanowanie dokumentów to proces, który wydaje się w miarę prosty. Jednak niewielkie błędy mogą prowadzić do obniżenia jakości skanów, utraty ważnych informacji. Poniżej przedstawiam cztery najczęstsze błędy, które mogą się pojawić podczas skanowania dokumentów oraz sposoby, jak ich unikać.

1. Skanowanie w niewłaściwej rozdzielczości

Jednym z najczęstszych błędów jest wybór niewłaściwej rozdzielczości skanowania. Dokumenty tekstowe mogą wymagać innej rozdzielczości niż zdjęcia czy grafiki. Jeśli zeskanujesz dokument tekstowy w niskiej rozdzielczości (np. 72 dpi), może być nieczytelny lub niemożliwy do przetworzenia przez systemy OCR (Optical Character Recognition). Z kolei zbyt wysoka rozdzielczość (powyżej 600 dpi) niepotrzebnie zwiększy rozmiar pliku, nie wpływając znacząco na jakość.

Jak tego uniknąć: Dostosuj rozdzielczość do rodzaju skanowanego dokumentu. Dla tekstów zazwyczaj wystarczy 300 dpi, natomiast dla zdjęć lub materiałów graficznych warto wybrać 600 dpi lub więcej, aby zachować ich szczegóły.

2. Brak odpowiedniego przygotowania dokumentu

Nieodpowiednie przygotowanie dokumentu do skanowania, takie jak niezłożenie kartek, pozostawienie zagnieceń czy zacieków, może prowadzić do powstania zakłóceń w zeskanowanym obrazie. Niewyraźne krawędzie, cienie, czy niewidoczne fragmenty mogą znacznie obniżyć jakość skanu i utrudnić jego późniejsze wykorzystanie.

Jak tego uniknąć: Zadbaj o to, aby dokumenty przed skanowaniem były czyste, równe i wyprostowane. Usuń zszywki, zagniecenia i ewentualne zabrudzenia, wyprasuj dokumenty kauterem lub zwykłym żelazkiem. Warto również sprawdzić, czy skaner jest czysty. Regularnie trzeba czyścić szybę skanera. 

3. Zapisywanie skanów w niewłaściwym formacie

Kolejnym błędem jest zapisywanie zeskanowanych dokumentów w formatach, które nie są optymalne do ich późniejszego wykorzystania. Popularne formaty, takie jak JPEG, mogą być wygodne, ale nie zawsze najlepsze. JPEG kompresuje obraz, co może prowadzić do utraty jakości, szczególnie przy dokumentach tekstowych. Format PDF z kolei może być lepszym wyborem, jeśli skanowane są wielostronicowe dokumenty.

Jak tego uniknąć: Przed zapisaniem skanu zastanów się nad jego przeznaczeniem. Dla dokumentów tekstowych i oficjalnych poleca się PDF, a dla materiałów graficznych – TIFF.

4. Ignorowanie bezpieczeństwa danych

Skanowanie dokumentów często wiąże się z przetwarzaniem danych osobowych lub poufnych informacji. Częstym błędem jest niedostateczna ochrona takich skanów, co naraża firmę lub osobę prywatną na wycieki danych. Zapisywanie skanów bez szyfrowania, brak zabezpieczeń hasłem czy niekontrolowany dostęp do folderów, w których są przechowywane, to potencjalne ryzyka.

Jak tego uniknąć: Upewnij się, że wszystkie skany są odpowiednio zabezpieczone. W przypadku dokumentów poufnych używaj szyfrowanych folderów, a jeśli skany są przesyłane e-mailem, dodaj do nich hasło. Regularnie aktualizuj systemy bezpieczeństwa, aby minimalizować ryzyko cyberataków.

Podsumowanie

Unikając powyższych błędów, możesz znacząco podnieść jakość swoich skanów, zaoszczędzić czas i uniknąć potencjalnych problemów. Pamiętaj, że dobrze zeskanowany dokument to taki, który jest czytelny, łatwy w obsłudze i odpowiednio zabezpieczony.

poniedziałek, 16 września 2024

Prosty program do weryfikacji skanów w 10 minut

Ostatnio furorę w świecie AI robi serwis CURSOR – Edytor kodu wspomagany przez sztuczną inteligencję (genAI). Zawsze chciałem zagłębić się w programowanie i choć kiedyś udało mi się stworzyć słynne "Hello World", to teraz postanowiłem przetestować tę "zabawkę" na poważnie.

Po instalacji CURSOR i założeniu konta, napisałem prompt, w którym poprosiłem o stworzenie prostego programu do wsadowej weryfikacji plików w formacie TIFF. Zależało mi na tym, by aplikacja sprawdzała, czy dany plik TIFF jest prawdziwy.

Po chwili CURSOR wygenerował kod. Nie znam się czy kod jest poprawny czy, więc poprosiłem o jego weryfikację kodu. Następnie chciałem otrzymać instrukcję, jak uruchomić program, aby działał poprawnie. Wygenerowany kod napisany był w Pythonie, a model LLM, który odpowiadał na moje prompty, to Claude 3.5. Warto wspomnieć, że CURSOR obsługuje również najnowsze modele OpenAI.



Część komend, odbywała się w wierszu poleceń. Samodzielnie musiałem dodać do kodu ścieżkę do katalogu, w którym znajdowały się pliki TIFF. Natomiast w  wierszu poleceń wpisywałem następujące komendy:


Po uruchomieniu ostatniej komendy rozpoczęła się weryfikacja skanów.

Na czym polegała weryfikacja?

W kodzie odpowiedź była prosta – program analizował plik na podstawie kilku kryteriów, które zawierała funkcja python weryfikator_tiff.py. Fragment kodu:


Program sprawdzał więc:

  • Format pliku – czy jest to rzeczywiście TIFF.
  • Rozmiar pliku – czy jego wielkość przekracza 1 MB.
  • Rozdzielczość DPI – minimalnie 300 DPI, co jest standardem w przypadku skanów o wysokiej jakości.
  • Tryb koloru – obsługiwane są tylko tryby: 1-bitowy, grayscale (skala szarości) i RGB.

Jeśli któryś z tych warunków nie został spełniony, program zwracał odpowiednią informację o błędzie. Całość działała sprawnie. Jednak te podane warunki są jeszcze do dopracowania. Na przykład standardowy skan A4 w formacie TIFF, 300 DPI waży około 24 MB, w przypadku A3 i 600 DPI plik będzie ważył ponad 200MB

CURSOR nie tylko pozwolił mi stworzyć kod ale też uruchomić. Na pewno jest to narzędzie rzeczywiście ułatwia pracę programistyczną dla osób które dopiero zaczynają swoją przygodę z kodowaniem.


czwartek, 12 września 2024

Jak chronić skany

Jednym z rozwiązań zapewniających wiarygodność i ochronę skanów są znaczniki czasu, które pozwalają określić moment utworzenia lub zmiany dokumentu. 

Czym są znaczniki czasu?

Znacznik czasu to metadane dodawane do pliku, określające moment jego utworzenia. W kontekście skanów znaczniki te stanowią zabezpieczenie przed późniejszymi manipulacjami. Każda zmiana w pliku opatrzonym znacznikiem zostanie zarejestrowana, co podnosi jego wiarygodność.

Jak działają znaczniki czasu?

Proces dodawania znacznika czasu opiera się na kryptografii. Kluczowe kroki obejmują:

  • Generowanie haszu dokumentu.
  • Weryfikacja haszu przez zaufaną trzecią stronę.
  • Podpisanie haszu znakiem czasu.
  • Dołączenie znacznika do dokumentu, co zabezpiecza jego autentyczność.
  • Znaczenie znaczników czasu

Znaczniki czasu oparte są na kilku technologiach:

  • Podpisy cyfrowe: Weryfikują autentyczność i nienaruszalność dokumentu.
  • Certyfikaty cyfrowe: Wydawane przez zaufane instytucje, potwierdzają tożsamość i integralność pliku.
  • Blockchain: Umożliwia przechowywanie znaczników w sposób odporny na manipulacje.

Ochrona prywatności

Chociaż znaczniki czasu zapewniają wysoką ochronę, mogą ujawniać informacje o dacie utworzenia dokumentu, co nie zawsze jest pożądane. W wielu systemach dodanie znacznika jest opcjonalne, choć jego wartość w  sytuacjach, takich jak dowody sądowe, jest nieoceniona. W miarę rozwoju technologii znaczniki czasu staną się jeszcze bardziej popularne. Wzrośnie ich zastosowanie w codziennych systemach oraz rozwój nowych metod ochrony wiarygodności dokumentów, takich jak blockchain.

Prompty dla Archiwisty cz.1

Czas na nową serię „Prompty dla Archiwisty” , w której podzielę się pomysłami na wykorzystanie promptów w pracy archiwalnej. Znajdziesz tu z...