poniedziałek, 23 września 2024

Błędy w skanowaniu dokumentów, których należy unikać

Skanowanie dokumentów to proces, który wydaje się w miarę prosty. Jednak niewielkie błędy mogą prowadzić do obniżenia jakości skanów, utraty ważnych informacji. Poniżej przedstawiam cztery najczęstsze błędy, które mogą się pojawić podczas skanowania dokumentów oraz sposoby, jak ich unikać.

1. Skanowanie w niewłaściwej rozdzielczości

Jednym z najczęstszych błędów jest wybór niewłaściwej rozdzielczości skanowania. Dokumenty tekstowe mogą wymagać innej rozdzielczości niż zdjęcia czy grafiki. Jeśli zeskanujesz dokument tekstowy w niskiej rozdzielczości (np. 72 dpi), może być nieczytelny lub niemożliwy do przetworzenia przez systemy OCR (Optical Character Recognition). Z kolei zbyt wysoka rozdzielczość (powyżej 600 dpi) niepotrzebnie zwiększy rozmiar pliku, nie wpływając znacząco na jakość.

Jak tego uniknąć: Dostosuj rozdzielczość do rodzaju skanowanego dokumentu. Dla tekstów zazwyczaj wystarczy 300 dpi, natomiast dla zdjęć lub materiałów graficznych warto wybrać 600 dpi lub więcej, aby zachować ich szczegóły.

2. Brak odpowiedniego przygotowania dokumentu

Nieodpowiednie przygotowanie dokumentu do skanowania, takie jak niezłożenie kartek, pozostawienie zagnieceń czy zacieków, może prowadzić do powstania zakłóceń w zeskanowanym obrazie. Niewyraźne krawędzie, cienie, czy niewidoczne fragmenty mogą znacznie obniżyć jakość skanu i utrudnić jego późniejsze wykorzystanie.

Jak tego uniknąć: Zadbaj o to, aby dokumenty przed skanowaniem były czyste, równe i wyprostowane. Usuń zszywki, zagniecenia i ewentualne zabrudzenia, wyprasuj dokumenty kauterem lub zwykłym żelazkiem. Warto również sprawdzić, czy skaner jest czysty. Regularnie trzeba czyścić szybę skanera. 

3. Zapisywanie skanów w niewłaściwym formacie

Kolejnym błędem jest zapisywanie zeskanowanych dokumentów w formatach, które nie są optymalne do ich późniejszego wykorzystania. Popularne formaty, takie jak JPEG, mogą być wygodne, ale nie zawsze najlepsze. JPEG kompresuje obraz, co może prowadzić do utraty jakości, szczególnie przy dokumentach tekstowych. Format PDF z kolei może być lepszym wyborem, jeśli skanowane są wielostronicowe dokumenty.

Jak tego uniknąć: Przed zapisaniem skanu zastanów się nad jego przeznaczeniem. Dla dokumentów tekstowych i oficjalnych poleca się PDF, a dla materiałów graficznych – TIFF.

4. Ignorowanie bezpieczeństwa danych

Skanowanie dokumentów często wiąże się z przetwarzaniem danych osobowych lub poufnych informacji. Częstym błędem jest niedostateczna ochrona takich skanów, co naraża firmę lub osobę prywatną na wycieki danych. Zapisywanie skanów bez szyfrowania, brak zabezpieczeń hasłem czy niekontrolowany dostęp do folderów, w których są przechowywane, to potencjalne ryzyka.

Jak tego uniknąć: Upewnij się, że wszystkie skany są odpowiednio zabezpieczone. W przypadku dokumentów poufnych używaj szyfrowanych folderów, a jeśli skany są przesyłane e-mailem, dodaj do nich hasło. Regularnie aktualizuj systemy bezpieczeństwa, aby minimalizować ryzyko cyberataków.

Podsumowanie

Unikając powyższych błędów, możesz znacząco podnieść jakość swoich skanów, zaoszczędzić czas i uniknąć potencjalnych problemów. Pamiętaj, że dobrze zeskanowany dokument to taki, który jest czytelny, łatwy w obsłudze i odpowiednio zabezpieczony.

poniedziałek, 16 września 2024

Prosty program do weryfikacji skanów w 10 minut

Ostatnio furorę w świecie AI robi serwis CURSOR – Edytor kodu wspomagany przez sztuczną inteligencję (genAI). Zawsze chciałem zagłębić się w programowanie i choć kiedyś udało mi się stworzyć słynne "Hello World", to teraz postanowiłem przetestować tę "zabawkę" na poważnie.

Po instalacji CURSOR i założeniu konta, napisałem prompt, w którym poprosiłem o stworzenie prostego programu do wsadowej weryfikacji plików w formacie TIFF. Zależało mi na tym, by aplikacja sprawdzała, czy dany plik TIFF jest prawdziwy.

Po chwili CURSOR wygenerował kod. Nie znam się czy kod jest poprawny czy, więc poprosiłem o jego weryfikację kodu. Następnie chciałem otrzymać instrukcję, jak uruchomić program, aby działał poprawnie. Wygenerowany kod napisany był w Pythonie, a model LLM, który odpowiadał na moje prompty, to Claude 3.5. Warto wspomnieć, że CURSOR obsługuje również najnowsze modele OpenAI.



Część komend, odbywała się w wierszu poleceń. Samodzielnie musiałem dodać do kodu ścieżkę do katalogu, w którym znajdowały się pliki TIFF. Natomiast w  wierszu poleceń wpisywałem następujące komendy:


Po uruchomieniu ostatniej komendy rozpoczęła się weryfikacja skanów.

Na czym polegała weryfikacja?

W kodzie odpowiedź była prosta – program analizował plik na podstawie kilku kryteriów, które zawierała funkcja python weryfikator_tiff.py. Fragment kodu:


Program sprawdzał więc:

  • Format pliku – czy jest to rzeczywiście TIFF.
  • Rozmiar pliku – czy jego wielkość przekracza 1 MB.
  • Rozdzielczość DPI – minimalnie 300 DPI, co jest standardem w przypadku skanów o wysokiej jakości.
  • Tryb koloru – obsługiwane są tylko tryby: 1-bitowy, grayscale (skala szarości) i RGB.

Jeśli któryś z tych warunków nie został spełniony, program zwracał odpowiednią informację o błędzie. Całość działała sprawnie. Jednak te podane warunki są jeszcze do dopracowania. Na przykład standardowy skan A4 w formacie TIFF, 300 DPI waży około 24 MB, w przypadku A3 i 600 DPI plik będzie ważył ponad 200MB

CURSOR nie tylko pozwolił mi stworzyć kod ale też uruchomić. Na pewno jest to narzędzie rzeczywiście ułatwia pracę programistyczną dla osób które dopiero zaczynają swoją przygodę z kodowaniem.


czwartek, 12 września 2024

Jak chronić skany

Jednym z rozwiązań zapewniających wiarygodność i ochronę skanów są znaczniki czasu, które pozwalają określić moment utworzenia lub zmiany dokumentu. 

Czym są znaczniki czasu?

Znacznik czasu to metadane dodawane do pliku, określające moment jego utworzenia. W kontekście skanów znaczniki te stanowią zabezpieczenie przed późniejszymi manipulacjami. Każda zmiana w pliku opatrzonym znacznikiem zostanie zarejestrowana, co podnosi jego wiarygodność.

Jak działają znaczniki czasu?

Proces dodawania znacznika czasu opiera się na kryptografii. Kluczowe kroki obejmują:

  • Generowanie haszu dokumentu.
  • Weryfikacja haszu przez zaufaną trzecią stronę.
  • Podpisanie haszu znakiem czasu.
  • Dołączenie znacznika do dokumentu, co zabezpiecza jego autentyczność.
  • Znaczenie znaczników czasu

Znaczniki czasu oparte są na kilku technologiach:

  • Podpisy cyfrowe: Weryfikują autentyczność i nienaruszalność dokumentu.
  • Certyfikaty cyfrowe: Wydawane przez zaufane instytucje, potwierdzają tożsamość i integralność pliku.
  • Blockchain: Umożliwia przechowywanie znaczników w sposób odporny na manipulacje.

Ochrona prywatności

Chociaż znaczniki czasu zapewniają wysoką ochronę, mogą ujawniać informacje o dacie utworzenia dokumentu, co nie zawsze jest pożądane. W wielu systemach dodanie znacznika jest opcjonalne, choć jego wartość w  sytuacjach, takich jak dowody sądowe, jest nieoceniona. W miarę rozwoju technologii znaczniki czasu staną się jeszcze bardziej popularne. Wzrośnie ich zastosowanie w codziennych systemach oraz rozwój nowych metod ochrony wiarygodności dokumentów, takich jak blockchain.

Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku

W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora  do obliczania rozdzielczości skanów. Prompt był następujący: stwór...