poniedziałek, 28 czerwca 2021

Digitalizacja na życzenie w Bibliotece Narodowej

INFO: Biblioteka Narodowa prosi wszystkich zainteresowanych o zgłaszania sugestii dot. digitalizacji na życzenie. Więcej na: Digitalizacja na życzenie - Aktualności - Biblioteka Narodowa (bn.org.pl)


Szkolenie: Darmowe warsztaty AI

INFO: AI Bay – Zatoka Sztucznej Inteligencji z Politechniki Gdańskiej prowadzi Zapisy na bezpłatne szkolenia z zakresu sztucznej inteligencji w ramach DIH4.AI.

Więcej na:

SI kursy i warsztaty 2021 – AI Bay – Zatoka Sztucznej Inteligencji


Webinar: "Sztuczna inteligencja jako narzędzie dla archiwistów"

INFO: W najbliższą środę 30 czerwca o godz. 12:00 odbędzie się webinarium "Sztuczna inteligencja jako narzędzie dla archiwistów" prowadzone przez dr. Wojciecha Samka. Dla wszystkich zainteresowanych są prowadzone zapisy mailowe. 




Zasoby: Cyfrowe repozytorium polskich przekładów Williama Shakespeare'a.

INFO: Centrum Kompetencji Cyfrowych UW razem z Instytutem Anglistyki UW tworzą cyfrowe repozytorium polskich przekładów Williama Shakespeare'a. Jak to wygląda mniej więcej tak: skanowanie tekstów, robienie OCR i plików z podstawową warstwą semantyczną, a następne metadane.

Cyfrowe repozytorium: http://polskiszekspir.uw.edu.pl/?fbclid=IwAR2TKIWvdWCINoLD6YDUa6aPuVe6cO1h-hctzprW_p89cdCFa3gPzwVOV1s

Konferencja: "Illuminating the archives – film archives alive and their audiences"

INFO: Od dziś  w Sokołowsku, w Archiwum Twórczości Krzysztofa Kieślowskiego, trwa dwudniowa (28-29/06/2021) konferencja poświęcona archiwom filmowym.

Program konferencji: http://kieslowski.com.pl/.../KONFERENCJA_PROGRAM-B2_v-pl...

Kanał na YT:  https://www.youtube.com/user/FundacjaInSitu/videos

Artykuł: Scrapping LinkedIn ma się dobrze

Scrapping LinkedIn ma się dobrze. Było 500 mln. uzytkownikow wystawionych na sprzedaż, teraz jest 700 mln.. Jest to ponad 93 %  użytkowników platformy. Więcej można przeczytać tu: Dane 700 mln użytkowników LinkedIn wystawione na sprzedaż - ITbiznes

Wcześniej pisałem o tym tu: https://cyfrowearchiwa.blogspot.com/2021/04/linkedin-zhackowany.html

Praca: Specjalista ds. cyfrowej popularyzacji zasobu [Warszawa, Archiwum Akt Nowych]

INFO: 

https://www.aplikuj.pl/oferta/1225544/specjalista-ds-cyfrowej-popularyzacji-zasobu-umowa-o-prace-kprm

sobota, 26 czerwca 2021

Artykuł: GLAM w kulturze

Ciekawy artykuł, polecam przeczytać :))

Artykuł: Collecting memes at the Alexander Turnbull Library

INFO:  O archiwizacji webu, social media i memów :))

Wystawa: Archiwa błyskawiczne. Instant i instax w Polsce

INFO: Fajna wystawa już działa od 18/06/2021 i będzie działać do końca sierpnia. :))

http://www.mng.gda.pl/wystawy/archiwa-blyskawiczne/?fbclid=IwAR11lJ--eOhAJycZv0_V7VFkcKY93TUzGWoAmBI8-da9IL6-6hB4lSzcZPA

Ciekawostka: Sztuczna inteligencja maluje obrazy

INFO: Sztuczna inteligencja maluje obrazy, a dokładniej domalowuje brakujące fragmenty :) Brzmi nieźle. Dzięki uczeniu maszynowemu SI nauczono technik malowania  stosowanych przez Rembrandta. Dzięki temu obraz Straż nocna, która została przycięta (lewa część obrazu - 60 cm, górna 22, dolna 12, prawa strona - 7 cm) "odzyskała stracone centymetry... Algorytm dzięki convolutional neural networks zdołał odzyskać trzy nowe postacie: dwóch strażników i chłopiec. Fajna sprawa ponieważ takie algorytmy można zastosować i w archiwach i bibliotekach. :))

https://www.rijksmuseum.nl/nl/zien-en-doen/tentoonstellingen/operatie-nachtwacht/story/nachtwacht-de-missende-stukken

Praca: Media Assets Coordinator [Warszawa, TransPerfect]

INFO:  

https://www.linkedin.com/jobs/search/?currentJobId=2599961563&savedSearchId=1212375384

piątek, 25 czerwca 2021

Felieton: SZTUCZNY TIFF czyli prawie wszystko o graficznych formatach cyfrowych stosowanych w digitalizacji

Poważny temat :)) Generalnie artykuł znalazł się w czasopiśmie More Maiorum.:)) Czemu sztuczny tiff??? W gwarze swojej określam pliki cyfrowe zrobione niezgodne z wszelkimi zasadami... Krótko omówię zagadnienie formatów cyfrowych stosowanych w digitalizacji w archiwach. Ograniczę się tylko do formatów graficznych, oraz spróbuję zastanowić się nad przyszłością.

DEFINICJE...

Głównym celem digitalizacji jest ochrona cennych zbiorów, a następnie udostępnienie ich w wersji cyfrowej dla szerokiego grona użytkowników[1]. Te obiekty cyfrowe w naszej literaturze przedmiotu zostały podzielone na kopie wzorcowe i kopie użytkowe, które mogą występować pod postacią plików graficznych lub audiowizualnych zapisywanych we właściwych formatach. Kopia wzorcowa (kopia-matka, kopie źródłowe, kopie zabezpieczające, dane wzorcowe, master file) są obiektami, które muszą zawierać wystarczające ilości informacji do wiernego odwzorowania oryginału, nie podlegające obróbce graficznej… Ale co znaczy wystarczające ilości informacji ???. Przyjęto, że głównym formatem wzorcowego zapisu cyfrowego jest format TIFF 6.0[2], bez kompresji, rozdzielczość od 300 do 600 ppi (w zależności od rodzaju materiału, który jest skanowany) z głębią kolorów 8 bitów szarości lub 24 bity RGB. Te wymagania określamy właśnie jako wystarczające ilości informacji. W przypadku kopii użytkowych (kopie pochodne) nie mamy podanych najczęściej minimalnych ani maksymalnych wymagań. Mowa jest jedynie o formacie zapisu. Najczęściej używanym formatem graficznym jest stratny JPG. Takie kopie najczęściej sporządza się z plików wzorcowych. Nazewnictwo jest różnorodne. W Standardach w procesie digitalizacji obiektów dziedzictwa kulturowego wymienia się obiekty cyfrowe wtórne tj. kopie wzorcowe (o dużej dokładności i wierności odtwarzania) oraz użytkowe (pochodne – o mniejszej dokładności, przeznaczone do udostępniania w sieci)[3]  a także naturalne obiekty cyfrowe (born digital)[4]. Aleksander Trembowiecki swej „Digitalizacji dla początkujących” podzielił formaty na archiwalne (pliki matrycowe, matryce, mastery) i reprezentacyjne, które są z kolei podzielona na formaty graficzne i formaty hybrydowe[5].

W ARCHIWACH...

Głównym dokumentem określającym politykę digitalizacyjną jest zarządzenie Nr. 14 Naczelnego Dyrektora Archiwów Państwowych z dnia 31 sierpnia 2015 roku w sprawie digitalizacji zasobu archiwalnego archiwów państwowych[6]. Kopia wzorcowa według zarządzenia to kopia zapisana w formatach bezstratnych bez kompresji lub z kompresją bezstratną. Takie pliki nie mogą być poddawane obróbkom graficznym (prócz kadrowania, mającego na celu usunięcie tła wokół obiektu skanowanego). Natomiast kopie użytkowe wykonuje się z kopii wzorcowych, które różną się od nich mniejszą rozdzielczością, innym nazewnictwem, zastosowaną obróbką graficzną np. dodanie znaków wodnych. Mogą być też poddawanie procesom OCR. W załączniku tegoż Zarządzenia podano parametry wymagań dotyczący kopii wzorcowych. Rozdzielczość skanowania ze względu na rodzaj dokumentów wynosi od 300 do 600 ppi, format zapisu TIFF 6.0 bez kompresji, głębia kolorów 8-bitowa skala szarości i 24-bitowa RGB. W skanowaniu mikrofilmów dopuszcza się format JPG (100% jakości) ze względu na spowolnienie pracy skanera trakcie zapisu w formacie TIFF. Kolejnym dokumentem jest Katalog praktyk i standardów digitalizacji materiałów archiwalnych[7], który jest praktycznie rozbudowaną wersją zarządzenia. Podane są te same definicje oraz te same założenia digitalizacyjne. Katalog ma kilka wersji: dla materiałów archiwalnych, bibliotecznych, muzealnych i audiowizualnych[8]

Ciekawym rozwiązaniem jest podział dokumentów ze względu na typ dokumentu. Taki podział pojawił się w Standardach… gdzie rodzaje materiałów przeznaczonych do digitalizacji podzielono na siedem grup (od A do G)[9]. Wszystkie te grupy mają określone wymagania minimalne i zalecane pod kątem formatu, rozdzielczości itp.. Jednak ta propozycja nie przyjęła się. Podział ten ma swoje lata więc należałoby ponownie przeprowadzić analizę zasadności takich, a nie innych podanych wymagań.

FORMATY ZAPISU

Formaty zapisu można podzielić generalnie na dwie grupy: wzorcowa (TIFF, RAW, JPG2000), użytkowa (JPG, DjVu, PDF).

TIFF

Format TIFF został opracowany w 1986 roku i służy do zapisywania grafiki rastrowej[10]. Praktycznie format ten zmonopolizował w kwestii zapisu plików przez skanery. TIFF pozwala zapisywanie dokumentów wielostronicowych, pozwala też na  zapisywanie obrazów stworzonych w skali szarości oraz w trybach koloru. Obsługuje 64 bitową głębię kolorów. Może przechowywać ścieżki i kanały alfa, profile koloru, komentarze tekstowe. Do wyboru jest kompresja bezstratna (LZW lub CCITT T.6), kompresja stratna lub bez kompresji. Obecnie obowiązuje standard TIFF 6.0. Jedyną wadą tego formatu jest duży rozmiar plików.

RAW

Format ten głownie występuję w fotografii cyfrowej[11]. Plik RAW w odróżnieniu do np. TIFF zawiera surowe dane z matrycy światłoczułej. Jest uważany za cyfrowy odpowiednik negatywu. Format ten charakteryzuje się dużym zakresem tonalnym, brakiem kompresji stratnej i zawiera zazwyczaj 12 lub 14 bitów na piksel. Obsługuje kolory w trybie RGB, CMYK i odcienie szarości. Problemem jest to, że obecnie każdy producent aparatów stosuje własny, najczęściej niezgodny z innymi, format plików typu RAW. Także wiele przeglądarek wymaga instalacji odpowiednich dodatków aby móc przeglądać ten format, już nie mówiąc o obróbce graficznej. W digitalizacji format ten jest nieczęsto stosowany.

JPG2000

Stosunkowo młody i stosunkowo mało popularny format[12]. Generalnie jest to nowsza wersja JPG z kompresją bezstratną. Zaletą formatu jest lepsza jakość obrazu przy tym samym stopniu kompresji. Inną zaletą jest mała wielkość plików w porównaniu do plików TIFF czy RAW. W digitalizacji ten format jest mało popularny ze względu na brak wsparcia w programach graficznych.

JPG

Standard JPEG (Joint Photographic Experts Group) jest bez wątpienia najpopularniejszy format grafiki rastrowej używany w fotografii cyfrowej, na stronach WWW itp.. Początki sięgają 1983 roku. Publikacja standardu nastąpiła w 1991[13] roku. Plik JPG jest zapisywany w trybie RGB po 8 bitów na kolor. W JPG możemy zastosować pełną gamę kolorów. Mamy możliwość też ustalenia stopnia kompresji. Wielką zaletą jest niewielki rozmiar oraz wsparcie przez wszystkie programy graficzne. Jest to format stratny (wersją bezstratną jest wspomniany wyżej format JPG200). W digitalizacji format ten używa się głównie w tworzeniu kopii użytkowych na potrzeby własne jak i dla użytkowników. Taka delikatniejsza kopia cyfrowa :)).

DjVu

Jest to bardzo ciekawy format graficzny. Można go nazwać formatem hybrydowym mającym w sobie oddzielnie tekst i grafikę[14]. Format ten jest  oparty na metodzie segmentacji obrazu[15]. Polega to na rozdzieleniu obrazów na odrębne warstwy i poddaniu ich odrębnej optymalizacji i kompresji. Wyróżniamy zazwyczaj dwie warstwy - warstwę tła i treści. Aby taki plik był bardziej funkcjonalny dodaje też trzecią warstwę - OCR zawierający rzeczywisty tekst.  Dokumenty w formacie DjVu ogląda się najczęściej za pomocą przeglądarki internetowej uzupełnionej o odpowiednią wtyczkę. Można też stosować odrębne przeglądarki plików. Zarówno wtyczki, jak i przeglądarki dostępne są darmowo[16]. Bardzo ważną cechą plików DjVu są bardzo małe rozmiary, nawet mogą być 1000 razy mniejsze niż standartowy TIFF. Mały rozmiar powoduje, że pliki mogą być szybciej przesyłane, szybciej otwierane. Jest to format popularny głównie w bibliotekach cyfrowych[17].

PDF

PDF (Portable Document Format) został stworzony przez firmę Adobe i jest formatem hybrydowym służący do prezentacji tekstu jak i grafiki[18]. Jest to popularny format mający duże wsparcie w postaci wielu programów do przeglądania, do edycji, darmowych jak i płatnych. Do zalet plików PDF można zaliczyć: możliwość umieszczenia w pliku grafiki rastrowej, wektorowej, akapitowego tekstu, tworzenie zakładek, hiperłączy, dodanie warstwy OCR. Ważną kwestią jest bezpieczeństwo. Jest możliwość szyfrowania dokumentów PDF i możliwość  ograniczenia czynności, które nie mogą być dokonywane przez użytkownika. Do wad należy zaliczyć brak możliwości powiększania tekstu, problemy z skopiowanie tekstu z dokumentu, brak dobrych narzędzi wyszukiwawczych w dokumentach. Pomimo tych wad, w digitalizacji format PDF jest dość popularny, jako format użytkowy (głównie do prezentowania na stronach WWW). Jest także możliwość użycia formatu dla przechowywania plików wzorcowych.

POSUMOWANIE

Jak widzimy w kwestii zapisu cyfrowego dominuje bezkonkurencyjnie format TIFF. Obecnie nie ma przesłanek aby jakiś inny format mógłby zastąpić obecne zapisy. Co nie znaczy że nie są prowadzone prace nad nowymi formatami graficznymi. Z jednym pretendentów mógłby być format FLIF po dopracowaniu[19]. Nawet jeśli pojawi się dopracowany format, który mógłby zastąpić inne znane nam formaty najważniejszą kwestia pozostaje jego promocja tj. wsparcie w programach graficznych, w systemach operacyjnych. Bez tego nawet najlepszy format przepadnie, zginie. Obecnie przewiduje się, że szybciej zostaną wydane nowe specyfikacje starych formatów.


[1] Digitalizacja piśmiennictwa. Pod redakcją D. Paradowskiego. Warszawa: BN, 2010, s. 27

[2] http://partners.adobe.com/public/developer/tiff/index.html

[3] Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. Pod redakcją G. Płoszajskiego. Warszawa: BGPW, 2008, s. 40

[4] Standardy…, op. cit, s. 15

[5] Digitalizacja dla początkujących. Aleksander Trembowiecki. Warszawa: SBP, 2014, s. 76

[6] http://archiwalna.archiwa.gov.pl/images/stories/zarz_14-2015.pdf

[7]http://nimoz.pl/upload/Programy_ministra/OCDK/Katalogi_zalecenia_2015/Katalog_praktyk_i_standardow_digitalizacji_materialow_archiwalnych.pdf

[8] http://www.nina.gov.pl/programy-ministra/wieloletni-program-rz%C4%85dowy-kulturaplus/

[9] Standardy…, op. cit, s. 204

[10] https://pl.wikipedia.org/wiki/Tagged_Image_File_Format

[11] https://pl.wikipedia.org/wiki/RAW

[12] https://pl.wikipedia.org/wiki/JPEG_2000

[13] https://pl.wikipedia.org/wiki/JPEG

[14] http://www.djvu.com.pl/

[15] https://pl.wikipedia.org/wiki/Segmentacja_obrazu

[16] http://www.djvu.com.pl/download0.php

[17] https://pl.wikipedia.org/wiki/Biblioteka_cyfrowa

[18] https://pl.wikipedia.org/wiki/Portable_Document_Format

[19] http://pclab.pl/news66172.html




Artykuł: How to view the cached version of a website

INFO: W artykule znajdziemy sposoby na wyświetlenie starych stron internetowych, które są offline dzięki pamięci podręcznej za pomocą Google, Wayback Machine i innych narzędzi.

https://in.pcmag.com/browsers/143271/how-to-view-the-cached-version-of-a-website




czwartek, 24 czerwca 2021

Artykuł: The 'Bit List' of Digitally Endangered Species

INFO: Do 2 sierpnia można zagłosować na zagrożone materiały cyfrowe. Zapraszam na: Bit List - Digital Preservation Coalition (dpconline.org). O "Bit List" pisałem już: https://cyfrowearchiwa.blogspot.com/2020/11/the-bit-list-of-digitally-endangered.html

Artykuł: Obowiązkowe e-faktury

 INFO: Ciekawe spojrzenie na problem e-faktur. Polecam: E-faktury już od października. Za dwa lata staną się obowiązkowe. „Każda inwigilacja dla obywatela jest niebezpieczna”

Narzędzie: Dla wszystkich tych, którzy kochają sztukę: Wyszukiwarka Artvee

INFO: Dla wszystkich tych, którzy kochają sztukę: Artvee  jest wyszukiwarką dzieł sztuki z domeny publicznej. Pozwala na wyszukiwanie przeglądanie kolekcji od ponad 40 innych międzynarodowych instytucji sztuki.

Konferencja: SUMMIT EOIF 2021 już w sierpniu

INFO: Program i rejestracja w tym linki https://gigacon.org/event/summit-eoif-2021/. Dla mnie tematyka jest interesująca, zwłaszcza ta o hiperautomatyzacji  :)

Praca: Asystent ds. zarządzania dokumentacją [Zabrze, DROMA S.C.]

 INFO: 

https://www.praca.pl/asystent-ds-zarzadzania-dokumentacja_4985270.html

Praca: Analityk Systemowy [ Warszawa, NN Group]

INFO: 

https://pl.indeed.com/poka%C5%BCprac%C4%99?jk=1f68ee4b839a0e0b&q=DMS+Developer&l=Warszawa,+mazowieckie&tk=1f8t6me67u85i802&from=ja&alid=565f6969e4b0ac595ce0e031&utm_campaign=job_alerts&utm_medium=email&utm_source=jobseeker_emails&rgtk=1f8t6me67u85i802

Praca: Records Mgmt Specialist [Warszawa, IQVIA]

 INFO: 

https://www.linkedin.com/jobs/view/2609253253/?lgTemp=jobs_jymbii_digest&eBP=NotAvailableFromMidTier&lgCta=eml-jymbii-organic-job-card&recommendedFlavor=HIDDEN_GEM&refId=%C2%95%08%C2%8D%C3%ABw%C2%B8%C2%BA%7D%C2%99%C3%B9%02%3B%C3%9B%C2%AB%03%C3%9B&trackingId=lTz8pcrdP3Btn53I66nw%2Bg%3D%3D&midToken=AQH8DDoWDH559Q&midSig=1qT9196XG-7VQ1&trk=eml-jobs_jymbii_digest-jymbii-23-job_card_mercado&trkEmail=eml-jobs_jymbii_digest-jymbii-23-job_card_mercado-null-26szsa%7Ekq9rb9d3%7Ewq-null-jobs%7Eview

piątek, 18 czerwca 2021

Publikacja: Archiwa uczelniane w XXI wieku wobec komputeryzacji, informatyzacji i elektronicznego zarządzania dokumentacją. Wprowadzenie do problematyki

INFO: Wkrótce będzie dostępna nowa publikacja: Archiwa uczelniane w XXI wieku wobec komputeryzacji, informatyzacji i elektronicznego zarządzania dokumentacją. Wprowadzenie do problematyki. Pozycja omawia problematykę dotyczącą wdrażania systemu Elektronicznego Zarządzania Dokumentacją (EZD) w szkołach wyższych. Warto kupić i przeczytać.

https://wydawnictwo.umk.pl/pl/products/5519/archiwa-uczelniane-w-xxi-wieku-wobec-komputeryzacji-informatyzacji-i-elektronicznego-zarzadzania-dokumentacja-wprowadzenie-do-problematyki?fbclid=IwAR09G8FHajrM8tuNWqE5smDciojQqz1grIdZAKcEx7EG_ow9WtjYyZFcTPI

Zasoby: Interaktywna mapa arborglifów z Parku Narodowego New Forest

INFO: Ciekawy pomysł. Mamy do dyspozycji interaktywną mapę, które pokazuje  drzewa z wyciętymi znakami. Oznaczono już 120 takich znaków. Władze Parku zachęcają do dokumentowania takich drzew.

środa, 16 czerwca 2021

Felieton: 5 powodów, dla których warto rozważyć hybrydowy paperless

Co to jest hybrydowy paperless??? To oznacza, że nie dążymy za wszelką cenę do wyeliminowania dokumentów papierowych. Papier tak jak każdy nośnik ma wady jak i zalety. Podam 5 powodów, które pokazują że sam paperless ma swoje ograniczenia.

1. Papier jest kiepskim nośnikiem, ponieważ jest podatny na zalanie i ogień. Trzeba mieć odpowiedne e do przechowywania. Ale elektroniczne nośniki, serwery też są narażone na pożary, na zalania, warunki klimatyczne też muszą być. Wszystko zależy od czy dana organizacja ma plan ratunkowy na wypadek katastrofy i czy ten plan umie zrealizować. 

2. Przestrzeń fizyczna jest droższa nić cyfrowa. To nie oznacza że cyfrowa jest bez kosztowa.

3. Informacje analogowe trudniej się wyszukuje, w cyfrowym szybciej o ile są dobrze otagowane i opisane... dobrze opisany zasób analogowy jest lepszy niż kiepski cyfrowy :)

4. Informacje analogowe trudnej się też przetwarza, występują błędy. W informacjach cyfrowych mamy  to samo, tylko skala inna.

5. Papier nie jest eko, mamy ślad węglowy, masowe wycinki lasu  (bardziej na domy i meble niż na papier), zużycie wody... Paperless też nie jest eko do końca.. pewne rzeczy będą lepiej wyglądał, a pewnie już nie np. zużycie prądu.

Połączenie mechanizmów analogowych i cyfrowych, może nam pozwolić na bycie elastycznym w doborze strategii w przechowywaniu danych i informacji oraz późniejszemu ich wykorzystaniu. Pora na hybrydowy paperless !!!

Praca: Kierownik oddziału do spraw programowania [Warszawa, Narodowe Archiwum Cyfrowe]

INFO: 

https://www.gowork.pl/oferta/kierownik-oddzialu,7Uom80OhZ7RweMKmegcrQ0,warszawa?utm_source=Indeed&utm_medium=organic&utm_campaign=Indeed

Felieton: Digitalizacja: Bezpieczeństwo - kontrola dostępu do systemów IT


Kontrola dostępu do systemów IT ma na celu ograniczenie  dostępu  do  informacji  i  urządzeń  do  przetwarzania  informacji.  Lepiej  jest, gdy ustanawia się zasady kontroli dostępu, aby myśleć w kategoriach "Wszystko jest ogólnie zabronione, chyba że jest to wyraźnie dozwolone", a nie odwrotnie: "Wszystko jest ogólnie dozwolone, chyba że jest zabronione". Następna kontrola to Dostęp do sieci i usług sieciowych i mówi, że użytkownicy powinni mieć dostęp tylko do sieci i usług sieciowych, do których używania zostali specjalnie upoważnieni.

 Polityka kontroli dostępu powinna obejmować sieci i usługi sieciowe, do których dostęp jest możliwy. Wszelkie procedury autoryzacji w celu określenia, kto ma prawo dostępu do jakich sieci. I jakie są środki kontroli, aby chronić dostęp do sieci i usług sieciowych przed nieupoważnionymi osobami. W jaki sposób dostęp do sieci i usług sieciowych jest uzyskiwany (przez VPN lub przez sieć bezprzewodową). Jakie są wymagania dotyczące uwierzytelniania użytkownika w celu uzyskania dostępu do sieci. A jak organizacja, monitoruje dostęp do swoich sieci. Nieautoryzowane  lub niebezpieczne połączenia z sieciami lub usługami  sieciowymi  należącymi  do  organizacji,  szczególnie jeśli mówimy o krytycznych bazach danych lub innych krytycznych informacjach, stanowią  poważne ryzyko, szczególnie jeśli połączenie to pochodzi z lokalizacji wysokiego ryzyka -na przykład z miejsca publicznego. Zapobieganie komputerom znajdującym się poza obrębem organizacji do łączenia się z określonymi usługami lub pewnymi aplikacjami jest odpowiednią metodą ochrony. Użytkownicy logujący się do sieci, komputera lub aplikacji powinni mieć dostęp jedynie do informacji i usług wymaganych dla ich funkcji biznesowych. I tylko do informacji i usług, do których mieli dostęp. Odpowiednią kontrolą może nie być umożliwienie wszystkim użytkownikom zobaczenia pełnego zakresu usług dostępnych dla aplikacji, do której mieli dostęp; ale tylko te usługi, które są dla nich dostępne i potrzebne do wykonywania swojej pracy.

Przy ochronie dostępu do sieci i aplikacji/baz danych używamy środków ochrony –przed wyciekiem danych, monitorujących zdarzenia i wychwytujących podejrzane działania lub anomalie w pracy użytkownika (np. podszywanie się inne osoby pod pracownika organizacji) Częstym naruszeniem bezpieczeństwa jest naruszenie poufności haseł poprzez infekcje złośliwym oprogramowaniem lub poprzez wpisanie haseł na fałszywej stronie logowania. Infekcja systemu złośliwym oprogramowaniem czy ingerencja zewnętrzna lub wewnętrzna w celu wyrządzenia szkód to nie są tak rzadkie przypadki. Ich skutki są bardzo niebezpieczne i skutkują przerwaniem działania, zniszczeniem systemów, wyciekiem poufnych danych.

Kontrola  dostępu  obejmuje  sprawowanie  nadzoru   nad   tym,   którzy   uczestnicy   (osoby,   procesy, maszyny, itd.) i w jakim czasie mają  dostęp  do  poszczególnych  zasobów  systemu  komputerowego,  na czym ten dostęp polega, w jaki sposób korzystają ze wspólnych danych, itp. Kontrola dostępu działa na  kilku  poziomach:  aplikacjiwarstwy  pośredniej  (ang.  middleware),  systemu operacyjnego   i   sprzętu.    Jest    to    kluczowy    składnik    każdego    rozwiązania    związanego    z bezpieczeństwem systemu, którego zadaniem jest zapewnienie, że zasób jest używany przez odpowiednich odbiorców w uprawniony sposób, w odpowiednim miejscu i czasie.

źródło:

http://zeszyty-naukowe.wwsi.edu.pl/zeszyty/zeszyt7/Rozproszona_Kontrola_Dostepu_W_Systemach_Informatycznych.pdf




Projekt: ISIDORE

INFO: ISIDORE to wyszukiwarka zapewniająca dostęp do danych cyfrowych z zakresu nauk humanistycznych i społecznych. Jest otwarta dla wszystkich, w szczególności dla nauczycieli, badaczy, doktorantów i studentów. Opiera się na zasadach Linked Data i zapewnia otwarty dostęp do danych.

https://isidore.science/

Praca: Specjalista – archiwista ds. digitalizacji [Kraków, Polskie Wydawnictwo Muzyczne]

INFO: 

https://www.pracuj.pl/praca/specjalista-archiwista-ds-digitalizacji-krakow,oferta,1001010757?sendid=28aab0a8-d819-476d-9152-8f0b0ea9a2cd&send_date=2021-06-16&utm_source=ja&utm_medium=email&utm_campaign=prog_ja_top

czwartek, 10 czerwca 2021

Konferencja: The annual Web Archiving Conference (WAC)

INFO: Międzynarodowe Konsorcjum Ochrony Internetu (IIPC) zorganizuje Web Archiving Conference (WAC). Tegoroczne wydarzenia będą odbywać się online i są organizowane we współpracy z Biblioteką Narodową Luksemburga. Konferencja gromadzi światowych ekspertów w dziedzinie archiwizacji internetowej. 

The annual Web Archiving Conference (WAC) razem z 4th RESAW Conference wspólnie tworzą Tydzień Archiwizacji Wirtualnej Sieci w Luksemburgu. Zatem warto śledzić te wydarzenia. 

Więcej na: https://www.eventbrite.co.uk/e/web-archiving-conference-2021-tickets-142817419747

Artykuł: CoSA PREPARE: Preparing Archives for Records in Email

INFO: The Council of State Archivists (CoSA) otrzymała dwuletni grant od University of Illinois na opracowanie i realizację różnych działań mających na celu budowanie potencjału w zakresie przechowywania i dostępu e-maili w administracji stanowej. Projekt ma wspierać: ciągła naukę, wymianę informacji i współpracę między archiwami państwowymi/terytorialnymi i ogółem społeczności archiwalnej.

Więcej na: 

https://www.statearchivists.org/programs/state-electronic-records-initiative/cosa-prepare-preparing-archives-records-email/?fbclid=IwAR3FyW3fLHuv8PgVIgYI-PaeLE3ybrZwhBGTfe1ndVhaYDHuHF1FEm88CvU

wtorek, 8 czerwca 2021

Zasoby: Archiwum Zdjęć - Prusy Wschodnie

INFO: Tylko dla sympatyków Prus Wschodnich i pokręconej nieraz historii ludzi i regionu.

Poradnik: Odzyskiwanie kont Yahoo! z Internet Archives

INFO: Krótki artykuł poradnik o tym jak odzyskać konto Yahoo! z Internet Archives :)

Felieton: Digitalizacja: Bezpieczeństwo i trwała ochrona zasobu cyfrowego

Witam, po krótkiej przerwie. Recontent ciąg dalszy. Ta część i kolejne były przygotowane razem z Piotrem Horbanem. Zapraszam do czytania i dyskusji jak zawsze :)

Dla zachowania bezpieczeństwa, dostępności, skalowalności i integralności archiwum po cyfryzacji, stosujemy wybrane narzędzia i technologie jak niżej. Opisane punkty to dobre praktyki, rekomendacje i zalecenia. Tworzenie cyfrowego archiwum należy zawsze zaprojektować przed, już na etapie jego cyfryzacji.

Zasoby fizyczne lub i chmurowe
Archiwa po cyfryzacji można przechowywać na zasobach dyskowych (macierze dyskowe), oraz na zasobach taśmowych. Każde z nich podlega swoim ograniczeniom ale też posiada własne zalety.

Do dyspozycji mamy:
  • Zasoby dyskowe (dyski talerzowe HDD i Solid-State Drive)
  • Taśmy
  • Zasoby serwerowe i sieciowe
  • Chmura publiczna i prywatna
Serwery, sieć, storage

To serwery, przełączniki, routery służące zarządzaniu i kontroli środowiska przechowującym  i  udostępniającym dane. Jednocześnie te zasoby powinny umożliwiać kontrolę dostępu i zapewniać bezpieczeństwo przed ingerencją z zewnątrz (ataki na systemy informatyczne, wynoszenie danych poufnych  lub  zabezpieczonych  prawami autorskimi) dzięki rozwiązaniom sieciowym klasy UTM i NGFW. Sieć powinna być wydajna i umożliwiać dostęp do przewidywalnej ilości użytkowników. Jednocześnie być zabezpieczona przed ingerencją z zewnątrz. To sieć rozległa WAN, łącząca np. różne punkty przetwarzania danych, sieć LAN (np. sieć wewnętrzna w czytelni, sieć w serwerowni), sieci bezprzewodowe, oraz łącza dostępowe do punktów dystrybucyjnych i ośrodków zapasowych.

Zarówno sieć i serwery należy projektować z lekkim nadmiarem, ponieważ ich skalowanie jest kosztowne, wymaga inwestycji CAPEX i nieraz jest kłopotliwe.

Zasoby fizyczne należy umiejscowić w bezpiecznej serwerowni z kontrolą dostępu, zapewnionym chłodzeniem, ochroną przeciw pożarową i zapasową linią energetyczną/agregatami/bateriami. Budowa własnej serwerowni jest bardzo kosztowna i nieopłacalna w małym wymiarze. Rozwiązaniem są ośrodki przetwarzania danych – Data Center, gdzie można bezpiecznie utrzymywać swoje systemy na poziomie bezpieczeństwa i dostępności, który najczęściej nie jest opłacalny do wykonania we własnym zakresie.

Zasoby dyskowe to macierze dyskowe lub dyski w serwerach. 
W zależności od tego jakie archiwa przechowujemy i (co istotniejsze) jak je udostępniamy i używamy – taki należy zaprojektować system dyskowy. Dyski są szybkie i bardzo szybkie (SSD), łatwo wymienialne w razie awarii lub upgrade, podlegają kontroli stanu działania na bieżąco. Umożliwiają łatwy dostęp. Służą danym „gorącym”, czyli tym, które są używane na bieżąco.

Taśmy 
Obecnie najczęściej używane standardy to LTO5 (pojemność 3TB), nowszy LTO6 (pojemność 6,25 TB), oraz najnowszy: LTO7 (pojemność 15 TB). Prędkość LTO6 (obecnie najbardziej powszechnej generacji) to maksymalnie 400MB/s, ale nie jest osiągana stale – zależy od napędu, rodzaju plików, sposobu kompresji, środowiska serwerowego. Napędy  taśmowe nadają się do archiwizacji danych zgromadzonych na dyskach. Z powodu ich  wad  nadają  się  do danych „zimnych” – nie  używanych  obecnie  lub  backupowanych.  Podlegają  degradacji  jakości  z upływem   czasu.

Chmura
To zasoby serwerowe, dyskowe, sieciowe oraz systemowe w postaci wirtualnej. Za pomocą chmury można odwzorować środowisko fizyczne, lecz dodając do niego wysoką skalowalność i dostępność (np. awaria zasilania nie ma wpływu na chmurę publiczną, można bardzo szybko dodać brakujący storage czy moc obliczeniową). Wyróżniamy modele chmur (cloud) publiczną, prywatną, hybrydową oraz multicloud. 

Chmura publiczna jest najbardziej rozpoznawalna i powszechna. Zasoby tego modelu należą do zewnętrznego dostawcy i są dostępne przez łącze internetowe; są współdzielone pomiędzy pozostałymi klientami tego dostawcy w tym modelu. Wirtualizator dba o to, aby te systemy się nie przenikały w żaden sposób. Jej cechą jest bardzo wysoka skalowalność i całkowity brak odpowiedzialności za infrastrukturę po stronie użytkownika. Klient korzysta tylko z zasobów wykreowanych jako chmura (moc obliczeniowa, storage, licencje, platformy).

Cloud prywatny to chmura na własnych zasobach serwerowych lub wynajętych, lecz całkowicie wyodrębnionych od reszty środowiska. Ma wady ograniczonej skalowalności w porównaniu do chmury publicznej, nadaje się do danych wrażliwych oraz tych, które nie mogą opuszczać firmy. Korzyściami tego modelu są: większa elastyczność i większe bezpieczeństwo.

Cloud hybrydowy to połączenie środowiska publicznego (np. Netia Compute) ze środowiskiem chmury prywatnej – albo u innego dostawcy albo na własnych serwerach. Dzięki temu dane, które nie mogą opuszczać firmy/kraju/środowiska mogą być przetwarzane w chmurze prywatnej, a reszta aplikacji (np. dla kontrahentów) jest umiejscowiona na zasobach chmury publicznej. Chmura to bardzo dobry sposób na udostępnianie archiwum w Internecie. Jej zasoby są stale dostępne i skalowalne wraz z przyrostem danych i użytkowników. Poprzez aplikacje chmurowe można dystrybuować zasoby archiwum w postaci do odczytu np. skanów czy wyszukiwanie baz danych. Do baz danych udostępnionych publicznie należy stosować zaawansowane rozwiązania bezpieczeństwa, jak chociażby klasy WAF. Web Application Firewall chroni szczególnie aplikacje chmurowe i bazy danych przed, atakiem na bazę w celu jej zablokowania, zniszczenia czy wykradzenia danych.

Sieć - dostęp z zewnątrz
Aby nasze cyfrowe archiwum udostępnić w formie ograniczonej, do zapytań, kwerend lub w pełni do pobrania to potrzebujemy zorganizować odpowiednie zasoby sieciowe. Jeżeli zasoby są umiejscowione naszej serwerowni to dobrym rozwiązaniem jest SAN, czyli sieć pamięci masowej. Jest to wyodrębniona przestrzeń gwarantująca serwerom szybki i bezpieczny dostęp do plików na urządzeniach. Sieć SAN jest łatwo skalowalna i zcentralizowana. SAN na etapie projektowania powinien mieć zapewnioną integralność, poufność, dostępność i możliwość zarządzania. SAN jest umiejscowione wewnątrz infrastruktury, jednak przy wszechobecnej sieci WAN i codziennych atakach na systemy informatyczne, jest ona również zagrożona – przy uzyskaniu przez napastnika dostępu do sieci SAN (do serwera bądź switcha) z zewnątrz istnieje niebezpieczeństwo przerwania ciągłości działania aplikacji i utraty danych lub utraty ich poufności. W tym celu stosuje się systemy ochrony zarówno wykrywania włamań, naruszeń integralności, wycieków danych, korelacji zdarzeń z incydentów i raportów podsystemów sieciowych. SAN pozwala na przetwarzanie danych pomiędzy serwerami, które z kolei te dane udostępniają za pomocą baz danych dla odbiorców.

Streaming treści audio-wideo
Nadchodzi moment, kiedy mamy już zrobione zasoby obliczeniowe, sieć, bezpieczeństwo i teraz chcemy pokazać je światu. Możliwości jest bardzo wiele. Musimy zaprojektować system w taki sposób aby było możliwe udostępnianie zasobów wielu użytkownikom na raz w żądanej jakości i przy jednoczesnych ale nie jednakowych zapytaniach. Np. jeżeli odbiorca zechce odtworzyć film i chwilę po nim ten sam film odtwarza kolejny odbiorca, to dla nich to będą 2 osobne indywidualne kanały strumienia danych. Pod to musimy zaprojektować odpowiednie macierze, które dają nam bardzo dużo operacji wejścia/wyjścia na sekundę. Zapewnić im redundancję i niezależność geograficzną. Dzięki temu unikniemy przestojów w odtwarzaniu, opóźnień i utraty łączności.

źródło: pexel.com






Jak stworzyłem kalkulator skanowania w Excelu – krok po kroku

W ramach testu poprosiłem ChatGPT o3 mini-high o stworzenie kalkulatora  do obliczania rozdzielczości skanów. Prompt był następujący: stwór...