czwartek, 12 marca 2026

AI NEWS dla archiwów cyfrowych #1

### DeepSeek-OCR-2: Zaawansowane optyczne rozpoznawanie znaków

Opis: System OCR obsługujący obrazy i pliki PDF, z dynamiczną rozdzielczością i podejściem visual causal flow.

Znaczenie dla archiwów cyfrowych: Bezpośredni kandydat do podmiany/uzupełnienia OCR w digitalizacji masowej i w aktach o trudnym układzie.

Potencjalne wdrożenia: OCR teczek akt, masowe przetwarzanie PDF, OCR + ekstrakcja pól do metadanych, OCR do RAG.

### GLM-OCR: Zaawansowany multimodalny model OCR do interpretacji dokumentów

Opis: Multimodalny model OCR zaprojektowany do rozumienia złożonych dokumentów z wykorzystaniem architektury koder--dekoder i technik treningowych poprawiających parsing struktury.

Znaczenie dla archiwów cyfrowych: Kandydat do przetwarzania dokumentów o skomplikowanym układzie (formularze, tabele, akta administracyjne, dokumenty wielokolumnowe).

Potencjalne wdrożenia: OCR + ekstrakcja pól do metadanych półautomatyczne indeksowanie teczek, przygotowanie danych pod RAG.



### MÓJ WORKFLOW

Ostatnio dużo testowałem systemowe prompty dot. analizy tekstu, wydobywania wiedzy i generowania plików. Wklejam prompt, który stosuje obecnie. Do skopiowania i testowania!!!


# 🧷 SYSTEM PROMPT — ANALIZA TEKSTU / WYDOBYWANIE WIEDZY / GENEROWANIE PLIKÓW

## 0. Rola

Jesteś **Asystentem Analitycznym do Ekstrakcji Wiedzy**.

Twoje zadanie:

- pracujesz **wyłącznie** na treści dostarczonej przez użytkownika w bieżącym zadaniu,  
- **nie wolno** Ci dodawać żadnych informacji spoza tekstu,  
- Twoje odpowiedzi muszą być **czystą ekstrakcją**: faktów, procesów, zasad, danych.

Nie jesteś doradcą, ekspertem, kreatywnym copywriterem ani konsultantem.  
Jesteś **precyzyjnym ekstraktorem wiedzy**.

---

## 1. Zakres roli

Działasz **wyłącznie** na tekście wejściowym użytkownika (jeden dokument / jeden blok wejściowy).

Twoje zadania:

1. **Wyodrębnianie:**
   - faktów,
   - procesów i procedur,
   - zasad,
   - danych liczbowych,
   - nazw (osób, instytucji, systemów, standardów, formatów).

2. **Strukturyzacja:**
   - przekształcanie treści w:
     - raporty,
     - checklisty,
     - matryce,
     - listy punktowane.

3. **Bez tworzenia nowej wiedzy:**
   - **nie formułujesz nowych wniosków**,  
   - **nie dopowiadasz** brakujących elementów,  
   - **nie uogólniasz** ponad to, co wynika dosłownie z tekstu.

---

## 2. KONSTYTUCJA ANTY-ŚCIEMY

Obowiązują Cię twarde zasady:

1. Jeśli czegoś **nie ma w tekście wejściowym** → odpowiadasz:
   - `nie wiem – brak danych w tekście wejściowym`.

2. Zakazane:
   - dopowiedzenia,
   - przykłady spoza tekstu,
   - analogie nieoparte na tekście,
   - wiedza „z głowy” lub z treningu modelu.

3. Kolejność:
   - najpierw **surowe fakty z tekstu**,  
   - dopiero potem ewentualna **bardzo lekka interpretacja**,  
   - ale **tylko jeśli użytkownik o to poprosi** i **tylko na bazie tekstu**.

4. Zero kreatywności:
   - żadnych historii, metafor, przykładów, scenariuszy,  
   - żadnych „propozycji” wykraczających poza to, co wyraźnie wynika z treści.

---

## 3. WARSTWA DANYCH — SINGLE SOURCE OF TRUTH

Twoim **jedynym źródłem** informacji jest **tekst wejściowy użytkownika w tym zadaniu**.

- Nie używasz:
  - internetu,
  - zewnętrznych baz danych,
  - wcześniejszych rozmów,
  - domyślnej „wiedzy świata” z modelu.

- Każdy element odpowiedzi musi mieć swój **czytelny ślad w tekście wejściowym**:
  - jeśli nie jesteś w stanie wskazać fragmentu, z którego to pochodzi → uznaj, że **nie wolno** Ci tego użyć.

Jeśli nie możesz znaleźć źródła dla jakiegoś stwierdzenia → **AUTO-STOP** (patrz punkt 6).

---

## 4. PREFLIGHT CHECK (AUTOKONTROLA PRZED ODPOWIEDZIĄ)

Przed wygenerowaniem odpowiedzi:

1. Sprawdzasz, czy:
   - każdy fakt, który chcesz podać, pochodzi **1:1** z tekstu wejściowego,
   - nie tworzysz kontekstu, którego w tekście nie ma,
   - wszystkie nazwy, liczby, terminy są:
     - przepisane poprawnie,
     - bez zmiany brzmienia i znaczenia.

2. Upewniasz się, że:
   - struktura odpowiedzi odpowiada **dokładnie** zadaniu użytkownika,
   - nie wkradła się żadna fantazja, dygresja czy spekulacja.

Jeżeli coś wymaga „domyślenia się” → **AUTO-STOP**.

---

## 5. STANDARD CYTOWANIA

Gdy podajesz fakt, możesz (jeśli to potrzebne) użyć formuły:

- `[…] — wg tekstu wejściowego`

Zasady:

- nie wymyślasz numerów stron, sekcji, znaczników – jeśli w tekście ich nie ma, **nie dodajesz ich**,  
- jeśli użytkownik podał numerację/oznaczenia – możesz je powtórzyć **dokładnie**, jak w tekście.

---

## 6. AUTO-STOP (MECHANIZM BLOKUJĄCY)

**Przerywasz** generowanie odpowiedzi i zgłaszasz problem, jeśli:

1. **Brakuje danych w tekście**, aby:
   - odpowiedzieć na pytanie,
   - zbudować żądaną strukturę,
   - uzupełnić wymagane pola (np. w matrycy).

2. Musiałbyś:
   - coś dopowiedzieć,
   - zaproponować coś „od siebie”,
   - zbudować opinię ekspercką, której w tekście nie ma.

3. Pytanie wymaga:
   - tworzenia nowych faktów,
   - porównania z zewnętrznymi standardami,  
   - oceny, której tekst nie dostarcza.

W AUTO-STOP odpowiadasz zwięźle, np.:

> `AUTO-STOP: brak danych w tekście wejściowym, aby wykonać [zakres zadania]. Dostarcz więcej treści lub zmień pytanie.`

---

## 7. PRZETWARZANIE WSTĘPNE

1. **Klasyfikujesz typ zadania**, np.:
   - `fakty`,
   - `dane liczbowe`,
   - `proces / procedura`,
   - `zasady / polityki`,
   - `lista / katalog / zestawienie`,
   - `mix powyższych`.

2. Sprawdzasz, czy tekst wejściowy zawiera:
   - informacje potrzebne do wykonania zadania,
   - wystarczająco dużo treści, by zbudować:
     - raport,
     - checklistę,
     - matrycę.

3. Jeśli treści jest **za mało** → uruchamiasz **AUTO-STOP** z wyjaśnieniem czego brakuje.

4. Dopiero po tym przechodzisz do właściwej ekstrakcji.

---

## 8. ZADANIE WŁAŚCIWE — WYDOBYWANIE WIEDZY

Twoja praca ma charakter **mechaniczno-analityczny**:

1. **Ekstrakcja:**
   - wyodrębniasz wszystkie:
     - fakty,
     - dane liczbowe,
     - cytaty (ważne fragmenty),
     - nazwy (instytucji, systemów, dokumentów, formatów, standardów),
     - procesy (kroki, etapy, procedury),
     - zasady (co wolno / czego nie wolno / wymagania).

2. **Przekształcanie procesów w checklisty:**
   - każdy opisany proces zamieniasz na listę kroków „krok po kroku”,
   - zachowujesz kolejność z tekstu,
   - nie dodajesz brakujących kroków, nawet jeśli logicznie „powinny” tam być.

3. **Grupowanie w sekcje tematyczne:**
   - porządkujesz dane w logiczne grupy, np.:
     - „Definicje”,
     - „Wymagania techniczne”,
     - „Proces digitalizacji”,
     - „Zasady bezpieczeństwa”,
     - itp. – ale **wyłącznie na podstawie treści**.

4. **Zero interpretacji:**
   - nie wyciągasz wniosków, które nie są jasno zapisane,
   - nie oceniasz treści („dobre/złe”, „aktualne/nieaktualne”).

---

## 8.1. GENEROWANIE PLIKÓW – LOGIKA

Na podstawie wyekstrahowanej wiedzy tworzysz **logiczny odpowiednik trzech plików**:

1. **Excel (.xlsx)**  
   Struktura tabeli:

   - Kolumny:
     - `Nr`
     - `Opis`
     - `Kategoria`
     - `Rekomendacja`

   Zasady:
   - `Opis` – fragment / parafraza **1:1 merytorycznie** z tekstu,
   - `Kategoria` – na podstawie tekstu (np. „proces”, „wymaganie”, „definicja”),
   - `Rekomendacja` – **tylko jeśli** w tekście istnieje wyraźna rekomendacja / zalecenie:
     - jeśli nie ma → wpisujesz np. `brak rekomendacji w tekście wejściowym` (jako meta-informację o braku).

   Jeśli nie możesz fizycznie wygenerować pliku `.xlsx`, przedstawiasz tabelę w formacie tekstowym, który można łatwo wkleić do Excela (np. tabela Markdown lub CSV).

2. **TXT → pełny raport z sekcjami**
   - zawiera:
     - listę faktów,
     - opis procesów,
     - zasady,
     - sekcje tematyczne,
   - raport jest kompletny i odzwierciedla **całość ekstrakcji**.

3. **Markdown (.md) → checklisty**
   - tworzysz checklisty z użyciem `- [ ]` lub `* [ ]`,
   - każdy krok / obowiązek / zadanie z tekstu ma osobny punkt.

---

### 8.2. Nowe obowiązki dotyczące plików

Obowiązują Cię dodatkowe zasady:

1. **Zero pustych plików**
   - każdy „plik logiczny” (Excel/TXT/MD) musi mieć **konkretną treść**,
   - jeśli sekcja jest pusta → nie tworzysz jej, albo jasno wskazujesz `brak danych w tekście wejściowym`.

2. **Pełna treść 1:1 z analizy**
   - treść w Excel/TXT/MD musi być:
     - **merytorycznie identyczna** z tym, co wypisałeś w głównej odpowiedzi,
     - bez skracania „bo się nie mieści”.

3. **Spójność**
   - to, co opisujesz w odpowiedzi, musi mieć swoje odbicie w plikach,
   - to, co jest w plikach, musi wynikać z treści odpowiedzi,
   - żadnych różnic typu:
     - inne liczby,
     - inne sformułowania,
     - dodatkowe elementy.

Jeśli nie jesteś w stanie zapewnić spójności → **AUTO-STOP**.

---

## 9. POST-PROCESSING (QA – KONTROLA JAKOŚCI)

Po przygotowaniu odpowiedzi:

1. Sprawdzasz:
   - czy wszystkie fakty mają źródło w tekście,
   - czy nic nie zostało dodane „od siebie”,
   - czy nie ma interpretacji nieopartych na tekście.

2. Walidujesz strukturę:
   - czy odpowiedź zawiera:
     - listę faktów i danych,
     - procesy w formie checklist,
     - sekcje tematyczne.

3. Weryfikujesz pliki:
   - czy logiczna zawartość „Excel/TXT/MD” jest:
     - kompletna,
     - zgodna 1:1 merytorycznie z analizą,
     - bez pustych pól, które powinny mieć treść z tekstu.

Jeśli znajdziesz błąd – **popraw go w tej samej odpowiedzi**.

---

## 10. OUTPUT KOŃCOWY

Twoja odpowiedź **zawsze** zawiera:

1. **Część główną (tekst odpowiedzi):**
   - listę faktów i danych,
   - checklisty krok po kroku (z procesów),
   - sekcje tematyczne (posortowane logicznie),
   - wiedzę praktyczną – **tylko** jeśli jest w tekście (np. „zaleca się…”, „należy…”).

2. **Opis trzech plików logicznych:**
   - **Excel (.xlsx)** – tabela z kolumnami:
     - `Nr | Opis | Kategoria | Rekomendacja`
   - **TXT** – pełny raport (nagłówki + treść),
   - **Markdown (.md)** – checklisty w formacie `- [ ]`.

Jeśli środowisko pozwala, możesz faktycznie wygenerować pliki.  
Jeśli nie – **zawsze** podajesz pełną treść tych plików w odpowiedzi, w sposób, który pozwala użytkownikowi:

- skopiować ją do Excela,  
- zapisać jako `.txt`,  
- zapisać jako `.md`.

Prompty AI – klasyfikacja w JRWA

Prompty AI (zapytania kierowane do modeli językowych i systemów sztucznej inteligencji) stają się elementem codziennej pracy w wielu instytucjach. W praktyce pełnią funkcję:
  • instrukcji dla systemu AI  
  • szablonów operacyjnych  
  • elementów konfiguracji narzędzi informatycznych  
  • części metodologii pracy z danymi  
Z punktu widzenia archiwistyki instytucjonalnej pojawia się pytanie: gdzie klasyfikować prompty w Jednolitym Rzeczowym Wykazie Akt (JRWA)

Możliwe umiejscowienie promptów w JRWA

1. Dokumentacja systemów informatycznych

Najbardziej naturalna klasyfikacja, gdy prompty są używane operacyjnie w systemach IT.

Przykładowa klasyfikacja
07 Informatyzacja
070 Systemy informatyczne
0705 Metody i narzędzia pracy w systemach informatycznych

Charakter dokumentacji

Prompty traktowane są jako:
  • szablony zapytań do systemów AI
  • konfiguracje pracy z narzędziami informatycznymi
  • instrukcje operacyjne dla użytkowników
Kategoria archiwalna: B5 – B10

2. Dokumentacja projektów informatycznych

Jeżeli prompty powstały w ramach wdrożenia systemu AI lub projektu informatycznego.

Przykładowa klasyfikacja

07 Informatyzacja
0703 Projekty informatyczne

Charakter dokumentacji

Prompty są częścią:
  • dokumentacji wdrożeniowej
  • dokumentacji konfiguracji systemu
  • dokumentacji projektowej
Kategoria archiwalna: B10

3. Materiały szkoleniowe

Jeżeli prompty stanowią element szkolenia pracowników.

Przykładowa klasyfikacja
08 Kadry i szkolenia
080 Szkolenia pracowników
0803 Materiały szkoleniowe

Charakter dokumentacji
  • zestawy promptów do nauki pracy z AI
  • instrukcje dla pracowników
  • materiały warsztatowe
Kategoria archiwalna: B5

4. Dokumentacja pomocnicza (robocza)

Jeżeli prompty mają charakter prywatnych notatek użytkowników.

Charakter dokumentacji
  • eksperymentalne prompty
  • notatki użytkowników
  • materiały robocze
Kategoria archiwalna: Bc

Rekomendowane podejście dla instytucji korzystających z AI

Najbardziej przyszłościowym rozwiązaniem jest utworzenie
dedykowanej klasy w JRWA dla narzędzi AI

Przykład:
07 Informatyzacja
070 Systemy informatyczne
0707 Narzędzia i konfiguracje systemów sztucznej inteligencji

Kategoria archiwalna: B10

Przykładowy opis teczki

Hasło klasyfikacyjne: Szablony zapytań i konfiguracje systemów sztucznej inteligencji wykorzystywanych w pracy instytucji.

Taka teczka zawierałaby:
  • zestawy promptów wykorzystywanych do analizy dokumentów  
  • schematy zapytań dla systemów AI  
  • konfiguracje narzędzi AI  
  • instrukcje pracy z systemami sztucznej inteligencji  
Znaczenie archiwalne promptów

Prompty AI można traktować jako nowy typ dokumentacji organizacyjnej, ponieważ:
  • wpływają na sposób przetwarzania informacji
  • determinują wyniki analiz wykonywanych przez AI
  • mogą mieć znaczenie dowodowe
  • stanowią element konfiguracji procesów informacyjnych.




Powrót

Po dłuższej przerwie wracam. Doszedłem do wniosku, że forma newslettera jest słaba, więc postanowiłem wrócić do formy bloga. Jeśli chodzi o tematykę to oczywiście będę się  skupiał bardziej na temacie wykorzystywania AI w sprawach archiwalnych, w szczególności  w digitalizacji, OCR czy w metadanych. Będę pokazywał swój workflow oraz też wiadomości z pogranicza AI oraz Archiwów. 

Na początek zapraszam do przeczytania Digitalizacja Warsztatowe ABC. A w nim mój artykuł: OCR vs Modele językowe



czwartek, 13 marca 2025

Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku

W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora do obliczania rozdzielczości skanów. Prompt był następujący:

stwórz mi kalkulator do obliczenia rozdzielczości skanów w zależności od wybranych parametrów tj. rozmiar skanowanego obiektu od B5 do A0, oraz typu formatu plików tj. JPG, JPG2000, JPG XL, TIFF. Najlepiej aby działał w Excelu. 

o3 mini zaproponował Python i bibliotekę openpyxl. Poprosiłem go też o instrukcję działania krok po kroku. 


Krok 1. Przygotowanie środowiska

Co było potrzebne?
Na początek upewniłem się, że mam zainstalowanego Pythona. Następnie zainstalowałem bibliotekę openpyxl, która umożliwia tworzenie i modyfikację plików Excel bezpośrednio z kodu. W terminalu wpisałem:

nginx
pip install openpyxl

Krok 2. Utworzenie pliku skryptu

Praca z edytorem tekstu
Otworzyłem Notatnik (lub dowolny inny edytor, np. VSCode) i wkleiłem do niego cały kod, który miał stworzyć kalkulator. Zdecydowałem się na nazwę pliku generuj_kalkulator.py. Poniżej znajduje się kod, który później został zapisany i uruchomiony:

python
from openpyxl import Workbook from openpyxl.worksheet.datavalidation import DataValidation # Utwórz nowy skoroszyt i wybierz aktywny arkusz wb = Workbook() ws = wb.active ws.title = "Kalkulator" # -------------------------- # Tabela rozmiarów papieru (umieszczona w komórkach A1:C7) # -------------------------- ws["A1"] = "Format" ws["B1"] = "Szerokość [mm]" ws["C1"] = "Wysokość [mm]" # Dane formatów: A0, A1, A2, A3, A4, B5 formats = [ ["A0", 841, 1189], ["A1", 594, 841], ["A2", 420, 594], ["A3", 297, 420], ["A4", 210, 297], ["B5", 176, 250] ] for i, row in enumerate(formats, start=2): ws.cell(row=i, column=1, value=row[0]) ws.cell(row=i, column=2, value=row[1]) ws.cell(row=i, column=3, value=row[2]) # -------------------------- # Sekcja wprowadzania parametrów przez użytkownika # -------------------------- ws["E1"] = "Wybierz format:" # Etykieta w E1 ws["F1"] = "" # Komórka F1 – lista rozwijana ws["E2"] = "DPI:" # Etykieta w E2 ws["F2"] = 300 # Domyślna wartość DPI w F2 # Utwórz walidację danych (lista rozwijana) dla komórki F1 dv = DataValidation(type="list", formula1='"A0,A1,A2,A3,A4,B5"', allow_blank=False) ws.add_data_validation(dv) dv.add(ws["F1"]) # -------------------------- # Obliczenia # -------------------------- # Pobieranie wymiarów [mm] dla wybranego formatu (komórki G1 i G2) ws["G1"] = "=VLOOKUP(F1, $A$2:$C$7, 2, FALSE)" # Szerokość [mm] ws["G2"] = "=VLOOKUP(F1, $A$2:$C$7, 3, FALSE)" # Wysokość [mm] # Obliczanie wymiarów w pikselach (H1 i H2) ws["H1"] = "=(G1/25.4)*F2" # Szerokość [pikseli] ws["H2"] = "=(G2/25.4)*F2" # Wysokość [pikseli] # Obliczenie rozmiaru nieskompresowanego obrazu (24-bit, czyli 3 bajty/piksel) ws["I1"] = "=(H1*H2*3)/(1024^2)" # Rozmiar TIFF (MB) # Przybliżone obliczenia dla innych formatów ws["I2"] = "=I1*0.1" # Rozmiar JPG (MB) – współczynnik ≈ 0,1 ws["I3"] = "=I1*0.08" # Rozmiar JPG2000 (MB) – współczynnik ≈ 0,08 ws["I4"] = "=I1*0.07" # Rozmiar JPG XL (MB) – współczynnik ≈ 0,07 # -------------------------- # Etykiety wyników # -------------------------- ws["E4"] = "Szerokość [mm] z wybranego formatu:" ws["E5"] = "Wysokość [mm] z wybranego formatu:" ws["F4"] = "=VLOOKUP(F1, $A$2:$C$7, 2, FALSE)" ws["F5"] = "=VLOOKUP(F1, $A$2:$C$7, 3, FALSE)" ws["E7"] = "Szerokość [pikseli]:" ws["F7"] = "=(F4/25.4)*F2" ws["E8"] = "Wysokość [pikseli]:" ws["F8"] = "=(F5/25.4)*F2" ws["E10"] = "Rozmiar TIFF (MB):" ws["F10"] = "=(F7*F8*3)/(1024^2)" ws["E11"] = "Rozmiar JPG (MB):" ws["F11"] = "=F10*0.1" ws["E12"] = "Rozmiar JPG2000 (MB):" ws["F12"] = "=F10*0.08" ws["E13"] = "Rozmiar JPG XL (MB):" ws["F13"] = "=F10*0.07" # Zapisz skoroszyt do pliku wb.save("kalkulator_skanowania.xlsx") print("Plik 'kalkulator_skanowania.xlsx' został wygenerowany.")


W Notatniku, aby zapisać plik jako .py, wybierz Plik → Zapisz jako…, a następnie:

  • W polu Nazwa pliku wpisz generuj_kalkulator.py
  • W polu Zapisz jako typ wybierz Wszystkie pliki
  • Zapisz plik w katalogu, np. C:\Users\PC\Downloads\calc

Krok 3. Uruchomienie skryptu

Krok po kroku:

  1. Otwórz terminal (cmd lub PowerShell):
    Na Windowsie możesz nacisnąć Windows + R, wpisać cmd i kliknąć Enter.

  2. Przejdź do katalogu ze skryptem:
    Wpisz w terminalu:

    bash
    cd C:\Users\PC\Downloads\calc

    i naciśnij Enter.

  3. Uruchom skrypt:
    W terminalu wpisz:

    nginx
    python generuj_kalkulator.py

    i naciśnij Enter.
    Po chwili powinieneś zobaczyć komunikat:

    nginx
    Plik 'kalkulator_skanowania.xlsx' został wygenerowany.

Krok 4. Sprawdzenie wyniku

  1. Otwórz folder z plikiem:
    Przejdź do katalogu C:\Users\PC\Downloads\calc i znajdź plik kalkulator_skanowania.xlsx.

  2. Uruchom plik w Excelu:
    Otwórz plik w Excelu – zobaczysz tabelę z danymi formatu papieru, pola do wyboru formatu oraz DPI, a także wszystkie obliczenia: wymiary w pikselach oraz szacunkowy rozmiar pliku w różnych formatach (TIFF, JPG, JPG2000, JPG XL).




Dzięki temu kalkulatorowi można szybko obliczyć rozdzielczość skanów oraz oszacować rozmiar pliku, co jest bardzo przydatne przy planowaniu digitalizacji dokumentów. Kalkulator działa więc ChatGPT się sprawdził. Mogę dalej testować proste aplikacje napisane przez AI.











czwartek, 13 lutego 2025

CHECKLISTA: Audyt metadanych w cyfrowym archiwum

Użyj tej listy kontrolnej, aby przeanalizować, czy Twoje metadane są poprawnie wdrożone i skuteczne.

KROK 1: Identyfikacja istniejących metadanych

  • Sprawdź, jakie metadane obecnie są przypisane do plików (np. słowa kluczowe, autor, data utworzenia).
  • Upewnij się, że każdy plik ma przypisane podstawowe informacje (np. nazwa, data, typ pliku).
  • Oceń, czy stosowane metadane są jednolite i konsekwentne w całym cyfrowym systemie 

KROK 2: Wyszukiwanie zasobów

  • Przetestuj, czy zasoby można łatwo znaleźć przy użyciu wyszukiwarki.
  • Sprawdź, czy słowa kluczowe są intuicyjne i zgodne z tym, jak użytkownicy szukają plików.
  • Oceń, czy metadane pozwalają filtrować wyniki wyszukiwania.

KROK 3: Spójność i standardy metadanych

  • Zdefiniuj standardy nazewnictwa plików i folderów.
  • Upewnij się, że wszyscy użytkownicy stosują ten sam format metadanych.
  • Sprawdź, czy stosowane standardy są zgodne z ogólnymi zasadami 


środa, 12 lutego 2025

Prompty dla Archiwisty cz.3: Wydobywanie wiedzy z newsletterów

Ostatnio odkryłem prompt, który robi robotę za mnie – dzięki niemu mogę szybko wydobywać kluczowe dane i informacje z newsletterów, do których jestem zapisany. Te wiadomości kryją w sobie kopalnię wiedzy, więc postanowiłem ją nie tylko wydobyć, ale i uporządkować. Narzędzie pozwala mi być na bieżąco i korzystać z wartościowych treści.

Jak to robię?

  • Kopiuję treść mailaPrzenoszę zawartość wiadomości do notatnika lub edytora tekstu (np. Worda), by móc swobodnie operować na samej merytoryce.
  • Usuwam zbędne informacjeUsuwam wszystko, co nie wnosi wartości – pozostawiam tylko istotne dane, kluczowe myśli i treści, które naprawdę mają znaczenie.
  • Zapisuję do plikuPorządkuję treść i zapisuję ją w dedykowanym pliku, co pozwala mi na łatwy dostęp i dalszą analizę.
  • Stosuję specjalny prompt: Wykorzystuję przygotowany prompt, który pomaga mi w ekstrakcji najważniejszych informacji. Oto przykładowe zapytanie:

Prompt:

"Twoim zadaniem jest przetworzyć wiedzę zawartą w mailu. Oto schemat odpowiedzi:"

Kategoryzacja: Podziel treści na tematy, np. produktywność, technologia, zarządzanie itp. To ułatwia dalsze przetwarzanie i analizę danych.

Wyodrębnianie kluczowych informacji: Dla każdego newslettera stwórz schemat zawierający:

  • Kluczowe punkty: Wypunktuj 3–5 najważniejszych idei.
  • Wnioski i zalecenia: Zawrzyj praktyczne wskazówki oraz rekomendacje.
  • Inspiracje: Zidentyfikuj pomysły na stworzenie checklisty, szablonu lub innej formy, która ułatwi codzienną pracę.

Systematyzacja wiedzy: 

  • Twórz szablony (np. arkusze Excel, dokumenty Word) z gotowymi podsumowaniami 
  • Twórz checklisty, które od razu możesz wdrożyć.

Automatyzacja: Jeśli chcesz przyspieszyć proces, mogę pomóc zaprojektować narzędzie (np. w Pythonie), które automatycznie przetworzy maile i wyciągnie najważniejsze treści."

Również warto pamiętać, że każdy wynik trzeba starannie weryfikować. Sam prompt z kolei powinien być regularnie dostosowywany do bieżących potrzeb i specyfiki zadania. Kolejna oczywistość – to wciąż praca ręczna. Muszę najpierw przygotować dane, aby uzyskać to, na czym mi zależy. Oczywiście, automatyzacja jest teoretycznie możliwa, natomiast wydaje mi się, że masowy wynik byłby w moim przypadku niezadowalający, ponieważ zależy mi na dokładności i precyzyjności. 


środa, 11 grudnia 2024

Prompty dla Archiwisty cz.2: opracowanie skutecznej strategii cyberbezpieczeństwa dla archiwum cyfrowego

Dziś na tapecie kolejna część serii Prompty dla Archiwisty.

Tym razem postanowiłem zgłębić temat cyberbezpieczeństwa w archiwach cyfrowych. Poprosiłem ChatGPT, aby opracował dla mnie skuteczną strategię ochrony danych w archiwum cyfrowym. Mój ogólny prompt brzmiał następująco:

Potrzebuję pomocy w opracowaniu skutecznej strategii cyberbezpieczeństwa dla archiwum cyfrowego

Rezultat? Otrzymałem zestaw ogólnych wskazówek, które były dobrym punktem wyjścia, ale chciałem dostać czegoś bardziej dopasowanego do specyfiki archiwum. Postanowiłem więc doprecyzować swoje potrzeby i posłużyć się generatorem, aby uzyskać bardziej szczegółowe rezultaty. Ostateczny prompt, który zastosowałem, wyglądał tak: 

Potrzebuj systemowego podejścia do opracowania skutecznej strategii cyberbezpieczeństwa dla archiwum cyfrowego, obejmującego identyfikację zagrożeń, ocenę ryzyka, środki ochrony i plan reagowania na incydenty.


# Kroki

1. **Identyfikacja Zasobów**:
    *   Sporządź listę wszystkich zasobów cyfrowych, które mają być chronione, w tym danych, systemów, sieci i urządzeń.
    *   Sklasyfikuj dane pod względem ich poufności, integralności i dostępności.
2. **Analiza Zagrożeń**:
    *   Zidentyfikuj potencjalne zagrożenia dla archiwum cyfrowego, takie jak ataki hakerskie, złośliwe oprogramowanie, błędy ludzkie, awarie sprzętu i klęski żywiołowe.
    *   Określ źródła zagrożeń, w tym wewnętrzne i zewnętrzne.
3. **Ocena Ryzyka**:
    *   Oceń prawdopodobieństwo wystąpienia każdego zagrożenia i jego potencjalny wpływ na archiwum.
    *   Przypisz poziom ryzyka każdemu zagrożeniu, biorąc pod uwagę zarówno prawdopodobieństwo, jak i wpływ.
4. **Środki Ochrony**:
    *   Wdrożenie środków bezpieczeństwa w celu zapobiegania, wykrywania i reagowania na zagrożenia.
    *   Środki te powinny obejmować:
        *   **Kontrola Dostępu**: Ograniczenie dostępu do zasobów cyfrowych tylko do upoważnionych użytkowników.
        *   **Uwierzytelnianie**: Weryfikacja tożsamości użytkowników przed udzieleniem im dostępu.
        *   **Szyfrowanie**: Ochrona poufnych danych poprzez szyfrowanie.
        *   **Zapory Sieciowe**: Ochrona sieci przed nieautoryzowanym dostępem.
        *   **Systemy Wykrywania Włamań**: Monitorowanie sieci pod kątem podejrzanej aktywności.
        *   **Oprogramowanie Antywirusowe**: Ochrona przed złośliwym oprogramowaniem.
        *   **Kopie Zapasowe**: Regularne tworzenie kopii zapasowych danych w celu zapewnienia ich odzyskiwania w przypadku awarii.
        *   **Szkolenia**: Edukacja pracowników na temat zagrożeń cyberbezpieczeństwa i najlepszych praktyk.
5. **Plan Reagowania na Incydenty**:
    *   Opracuj plan reagowania na incydenty bezpieczeństwa, który określa kroki, jakie należy podjąć w przypadku naruszenia bezpieczeństwa.
    *   Plan ten powinien obejmować:
        *   **Identyfikacja**: Szybkie identyfikowanie i potwierdzanie incydentów.
        *   **Powstrzymywanie**: Izolowanie dotkniętych systemów, aby zapobiec dalszemu rozprzestrzenianiu się zagrożenia.
        *   **Usuwanie**: Usunięcie zagrożenia z zainfekowanych systemów.
        *   **Przywracanie**: Przywrócenie systemów do normalnego działania.
        *   **Lekcje**: Analiza incydentu i wdrożenie środków w celu zapobiegania podobnym incydentom w przyszłości.
6. **Monitorowanie i Przegląd**:
    *   Regularnie monitoruj systemy pod kątem oznak zagrożeń i incydentów.
    *   Okresowo przeglądaj i aktualizuj strategię cyberbezpieczeństwa, aby uwzględnić nowe zagrożenia i technologie.

# Output Format

Ustrukturyzowany dokument w formacie markdown, zawierający szczegółowy plan cyberbezpieczeństwa dla archiwum cyfrowego. Dokument powinien być podzielony na sekcje odpowiadające krokom opisanym powyżej. Każda sekcja powinna zawierać szczegółowe informacje i zalecenia dotyczące danego aspektu strategii cyberbezpieczeństwa.

# Notes

*   Strategia powinna być dostosowana do specyficznych potrzeb i wymagań archiwum cyfrowego.
*   Należy uwzględnić obowiązujące przepisy i regulacje dotyczące ochrony danych.
*   Zaleca się konsultację z ekspertami ds. cyberbezpieczeństwa w celu opracowania i wdrożenia strategii.
*   Wszystkie zalecenia powinny być realne, i dopasowane do zasobów i wielkości archiwum.
*   Podczas tworzenia planu, myśl etapami - od ogółu do szczegółu.
*   Po ukończeniu danego etapu, przejrzyj go ponownie, i zastanów się, czy czegoś nie brakuje.

Natomiast wynik zastosowanego promptu prezentuje się następująco:

# Strategia Cyberbezpieczeństwa dla Archiwum Cyfrowego

## 1. Identyfikacja Zasobów

### 1.1 Inwentaryzacja Zasobów
- **Dane**: Lista wszystkich typów danych przechowywanych w archiwum (np. dokumenty, metadane, bazy danych).
- **Systemy**: Oprogramowanie zarządzające archiwum (np. systemy zarządzania dokumentami, serwery).
- **Sieci**: Struktura sieci, w tym sieci wewnętrzne i zewnętrzne.
- **Urządzenia**: Urządzenia używane do zarządzania archiwum (np. serwery, komputery, skanery, nośniki danych).

### 1.2 Klasyfikacja Danych
- **Poufność**: Identyfikacja danych wymagających najwyższego poziomu ochrony.
- **Integralność**: Dane, które muszą być chronione przed nieautoryzowaną modyfikacją.
- **Dostępność**: Dane kluczowe dla bieżącej działalności archiwum, wymagające ciągłej dostępności.

## 2. Analiza Zagrożeń

### 2.1 Rodzaje Zagrożeń
- **Zewnętrzne**:
  - Ataki hakerskie (np. phishing, ransomware).
  - Złośliwe oprogramowanie.
  - Klęski żywiołowe (np. powodzie, pożary).
- **Wewnętrzne**:
  - Błędy ludzkie (np. przypadkowe usunięcie danych).
  - Nieautoryzowany dostęp przez pracowników.

### 2.2 Źródła Zagrożeń
- **Ludzkie**: Brak szkoleń, nieuwaga.
- **Technologiczne**: Luki w zabezpieczeniach oprogramowania.
- **Fizyczne**: Awaria sprzętu lub brak odpowiednich zabezpieczeń.

## 3. Ocena Ryzyka

### 3.1 Prawdopodobieństwo
- Określenie, jak często dane zagrożenie może wystąpić.
- Podział na poziomy (np. niskie, średnie, wysokie).

### 3.2 Wpływ
- Ocena skutków zagrożenia dla działalności archiwum.
- Uwzględnienie konsekwencji finansowych, operacyjnych i reputacyjnych.

### 3.3 Macierz Ryzyka
- Tworzenie macierzy ryzyka w celu priorytetyzacji zagrożeń na podstawie prawdopodobieństwa i wpływu.

## 4. Środki Ochrony

### 4.1 Kontrola Dostępu
- Implementacja zasad ograniczania dostępu na zasadzie najmniejszych uprawnień ("least privilege").
- Używanie mechanizmów uwierzytelniania wieloskładnikowego (MFA).

### 4.2 Ochrona Danych
- Szyfrowanie w stanie spoczynku i podczas przesyłania danych.
- Regularne aktualizacje oprogramowania i systemów.

### 4.3 Infrastruktura Sieciowa
- Stosowanie zapór sieciowych (firewall) oraz systemów wykrywania i zapobiegania włamaniom (IDS/IPS).

### 4.4 Ochrona przed Złośliwym Oprogramowaniem
- Regularne skanowanie antywirusowe.
- Izolacja potencjalnie zagrożonych systemów.

### 4.5 Kopie Zapasowe
- Wdrożenie strategii kopii zapasowych typu 3-2-1:
  - 3 kopie danych.
  - 2 różne nośniki.
  - 1 kopia przechowywana poza siedzibą.

### 4.6 Szkolenia
- Regularne szkolenia dla pracowników z zakresu:
  - Rozpoznawania zagrożeń (np. phishing).
  - Procedur reagowania na incydenty.

## 5. Plan Reagowania na Incydenty

### 5.1 Procedury
- **Identyfikacja**: Natychmiastowe zidentyfikowanie incydentu przez odpowiedzialny zespół.
- **Powstrzymywanie**: Tymczasowe odcięcie dotkniętych systemów od sieci.
- **Usuwanie**: Czyszczenie i przywracanie integralności systemów.
- **Przywracanie**: Odzyskiwanie danych z kopii zapasowych.

### 5.2 Analiza Po Incydencie
- Dokumentacja przebiegu incydentu.
- Analiza skuteczności reakcji i wdrożenie środków zapobiegawczych.

## 6. Monitorowanie i Przegląd

### 6.1 Ciągłe Monitorowanie
- Implementacja systemów SIEM (Security Information and Event Management).
- Regularne audyty i testy penetracyjne.

### 6.2 Przegląd Strategii
- Coroczny przegląd strategii.
- Aktualizacje w odpowiedzi na nowe zagrożenia i zmiany technologiczne.

---

## Podsumowanie
Strategia cyberbezpieczeństwa dla archiwum cyfrowego jest kluczowym elementem zapewniającym ochronę danych oraz ciągłość działań. Jej sukces zależy od regularnego monitorowania, szkolenia personelu oraz wdrożenia skutecznych środków ochrony. Plan powinien być żywym dokumentem, dostosowywanym do dynamicznie zmieniającego się środowiska zagrożeń.

Odpowiedź ChataGPT była zauważalnie lepsza, bardziej precyzyjna, gdy otrzymał szczegółowo sformułowane zapytanie. Dla eksperta taka odpowiedź może pełnić rolę konspektu lub punktu wyjścia do dalszych działań, natomiast dla laika ma dużą wartość jako wprowadzenie do tematu, ułatwiając zrozumienie kluczowych zagadnień.


środa, 20 listopada 2024

Prompty dla Archiwisty cz.1: Zarządzanie Innowacjami

Czas na nową serię „Prompty dla Archiwisty”, w której podzielę się pomysłami na wykorzystanie promptów w pracy archiwalnej. Znajdziesz tu zarówno te, które sam opracowałem, jak i te wyszukane w odmętach Internetu. Wszystko po to, by ułatwić pracę archiwalną. Będzie prosto i konkretnie. Zapraszam!

Prompt: Zarządzanie Innowacjami

Wygeneruj kompleksowy plan zarządzania innowacjami w organizacji [rodzaj działalności lub branża], koncentrując się na [konkretnych celach lub wyzwaniach związanych z innowacjami] i biorąc pod uwagę [docelową grupę odbiorców lub kluczowych interesariuszy]. 

Rodzaj działalności/branża: [Wstaw tutaj] 

Cele/wyzwania innowacyjne: [Wstaw tutaj] 

Docelowi odbiorcy/interesariusze: [Wstaw tutaj]

Branża, jak łatwo się domyślić, to archiwistyka, a za główny cel obrałem zastosowanie technologii OCR (Optical Character Recognition). Dlaczego właśnie to? OCR pozwala na przekształcenie fizycznych dokumentów i obrazów w cyfrowe, wyszukiwalne treści, co znacząco ułatwia dostęp do zasobów archiwalnych.

Jeśli chodzi o docelowych odbiorców, skupiłem się na twórcach kultury i mediów: dziennikarzach, filmowcach, pisarzach oraz artystach. To właśnie oni najczęściej poszukują materiałów i inspiracji ukrytych w archiwach, a OCR może stać się dla nich kluczem do szybszego i bardziej efektywnego odkrywania tych zasobów. Dzięki temu archiwa mogą stać się bardziej otwarte i przyjazne dla współczesnych użytkowników.

A oto nasz ejaj (ChatGPT 4o) stworzył. Oczywiście zawsze pamiętamy o potrzebie weryfikacji takiej odpowiedzi. 

Plan Zarządzania Innowacjami w Branży Archiwistycznej

1. Wstęp

Wprowadzenie technologii OCR (Optical Character Recognition) do archiwów jest kluczowym krokiem w kierunku cyfryzacji i zwiększenia dostępności zasobów dla twórców kultury i mediów, takich jak dziennikarze, filmowcy, pisarze oraz artyści. Ten plan koncentruje się na skutecznej implementacji OCR, uwzględniając potrzeby tych grup oraz wyzwania technologiczne.


2. Cele Zarządzania Innowacjami

  1. Zwiększenie dostępności zasobów archiwalnych:

    • Przekształcenie dokumentów w cyfrowe i wyszukiwalne treści.
    • Ułatwienie twórcom kultury szybkiego dostępu do potrzebnych materiałów.
  2. Poprawa jakości danych:

    • Minimalizacja błędów w rozpoznawaniu tekstu i zapewnienie wysokiej dokładności technologii OCR.
  3. Dostosowanie narzędzi do potrzeb twórców:

    • Umożliwienie intuicyjnego wyszukiwania i analizowania danych.
  4. Promocja archiwów jako źródła inspiracji:

    • Zwiększenie świadomości o wartości archiwów w procesach twórczych.

3. Etapy Zarządzania Innowacjami

Etap 1: Diagnoza i Analiza Potrzeb

  • Identyfikacja potrzeb twórców kultury:
    • Przeprowadzenie wywiadów i ankiet wśród dziennikarzy, pisarzy, filmowców oraz artystów.
    • Zrozumienie, jakie typy materiałów są najbardziej pożądane (np. fotografie, dokumenty tekstowe, mapy).
  • Analiza zasobów archiwalnych:
    • Ocena jakości i formatu istniejących materiałów.
    • Weryfikacja, które zasoby są priorytetowe do digitalizacji.

Etap 2: Dobór Technologii i Partnerów

  • Wybór technologii OCR:

    • Testowanie dostępnych rozwiązań (np. ABBYY, Tesseract, Google Vision).
    • Wybór narzędzi, które najlepiej rozpoznają historyczne i nietypowe czcionki.
  • Współpraca z ekspertami:

    • Nawiązanie współpracy z firmami technologicznymi i instytucjami naukowymi.
    • Zaangażowanie specjalistów ds. digitalizacji i historyków.

Etap 3: Implementacja

  • Digitalizacja zasobów:

    • Utworzenie zespołu ds. digitalizacji dokumentów.
    • Stworzenie procedur skanowania i obróbki danych.
  • Trening algorytmów OCR:

    • Dostosowanie technologii do specyficznych materiałów (np. stare druki, dokumenty zniszczone).
  • Tworzenie platformy dostępu:

    • Budowa portalu, który umożliwia wyszukiwanie treści przez frazy kluczowe, kontekst i metadane.

Etap 4: Promocja i Edukacja

  • Promowanie zasobów archiwalnych:

    • Organizowanie warsztatów dla twórców kultury o korzystaniu z narzędzi OCR.
    • Kampanie informacyjne prezentujące potencjał archiwów jako źródła inspiracji.
  • Szkolenie personelu:

    • Wdrażanie szkoleń z obsługi narzędzi OCR i zarządzania cyfrowymi zasobami.

Etap 5: Monitorowanie i Doskonalenie

  • Ewaluacja efektów:

    • Zbieranie informacji zwrotnych od użytkowników.
    • Ocena jakości i przydatności udostępnionych danych.
  • Aktualizacja technologii:

    • Ciągłe doskonalenie algorytmów OCR w odpowiedzi na nowe wyzwania i potrzeby.

4. Kluczowi Interesariusze

  1. Twórcy kultury i mediów:

    • Korzystają z zasobów archiwalnych jako materiałów źródłowych i inspiracyjnych.
  2. Firmy technologiczne:

    • Dostarczają narzędzia i wsparcie techniczne dla implementacji OCR.
  3. Pracownicy archiwów:

    • Odpowiedzialni za proces digitalizacji i zarządzanie zasobami.
  4. Instytucje edukacyjne i naukowe:

    • Współpracują przy rozwoju technologii i promocji archiwów.

5. Mierniki Sukcesu

  • Liczba zdigitalizowanych i udostępnionych dokumentów.
  • Procent poprawności rozpoznawania tekstu przez OCR.
  • Liczba użytkowników platformy i częstotliwość korzystania z zasobów.
  • Liczba nowych projektów twórczych powstałych z wykorzystaniem zasobów archiwalnych.

6. Potencjalne Ryzyka

  • Niedoszacowanie kosztów:

    • Konieczność pozyskania dodatkowego finansowania.
  • Problemy z ochroną praw autorskich:

    • Weryfikacja, które materiały mogą być legalnie udostępniane.
  • Ograniczona adaptacja przez użytkowników:

    • Brak wystarczającego szkolenia lub promocji może ograniczyć zainteresowanie.

7. Harmonogram

EtapCzas trwaniaDziałania
Diagnoza i analiza3 miesiąceAnkiety, analiza zasobów.
Dobór technologii2 miesiąceTestowanie i wybór technologii.
Implementacja6-12 miesięcyDigitalizacja, wdrożenie OCR.
Promocja i edukacja6 miesięcy (równolegle)Warsztaty, kampanie promocyjne.
Monitorowanie i ewaluacjaStały procesZbieranie opinii i doskonalenie.

Podsumowanie

Wdrożenie technologii OCR w archiwach skierowanych na potrzeby twórców kultury i mediów pozwoli zwiększyć dostępność i przydatność zasobów. Kluczem do sukcesu będzie współpraca z partnerami technologicznymi, edukacja odbiorców oraz stała analiza efektów i potrzeb użytkowników.

Odpowiedź jest dość precyzyjna i stanowi solidną bazę. Osoba posiadająca wiedzę i doświadczenie w tym zakresie może szybko ją zmodyfikować, dostosować do swoich potrzeb, a następnie efektywnie wykorzystać. 


AI NEWS dla archiwów cyfrowych #1

### DeepSeek-OCR-2 : Zaawansowane optyczne rozpoznawanie znaków Opis: System OCR obsługujący obrazy i pliki PDF, z dynamiczną rozdzielczośc...