nové nástroje pro archivaci webu
DESCRIPTION
Nové nástroje pro archivaci webu. Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK. WebArchiv – kdo a proč?. potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě - PowerPoint PPT PresentationTRANSCRIPT
http://www.webarchiv.cz AKM'06 Praha NA
Nové nástroje pro archivaci webuNové nástroje pro archivaci webu
Ing. Petr Žabička, MZKIng. Petr Žabička, MZK
Mgr. Jan HUTAŘ, NKMgr. Jan HUTAŘ, NK
http://www.webarchiv.cz AKM'06 Praha NA
WebArchiv – kdo a proč?WebArchiv – kdo a proč? potřeba zachránit netištěné informace kulturní a historické
hodnoty pro další generace
až 90% webových dokumentů existuje pouze v elektronické podobě
NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví
WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet"
řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně
http://www.webarchiv.cz AKM'06 Praha NA
Cíle WebArchivuCíle WebArchivu
zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet
připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů
zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo
stanovit kritéria výběru zdrojů pro národní bibliografii
http://www.webarchiv.cz AKM'06 Praha NA
Kritéria výběru webových zdrojů
množství online dokumentů je obrovské, kvalita různá nutno aplikovat kritéria výběru uchovat dokumenty, které mají dokumentární hodnotu
Pro akvizici (harvesting) zdrojů se aplikují dva přístupy:
1. výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií
2. plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru.
3. tematické sklizně – např. volby, povodně apod.
trend – oba přístupy najednou (např. Austrálie, Dánsko)
http://www.webarchiv.cz AKM'06 Praha NA
Co máme za sebou Co máme za sebou průběžné testování:
SW nástrojů s využitím HW pořízeného v rámci finančních možností
tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek
SW výhradně open source snaha o změnu zákonů mezinárodní spolupráce (aktivní účast na výzkumu a
vývoji v rámci IIPC – členství od roku 2007) zpřístupňování veřejné části archivu online pomocí
fulltextového prohledávání od podzimu 2005 zpřístupnění indexu celého archivu prostřednictvím
aplikace Wayback
http://www.webarchiv.cz AKM'06 Praha NA
Registrované domény v .cz
0
50000
100000
150000
200000
250000
300000
IX.9
9
XII.99
III.0
0VI.0
0IX
.00
XII.00
III.0
1VI.0
1IX
.01
XII.01
III.0
2VI.0
2IX
.02
XII.02
III.0
3VI.0
3IX
.03
XII.03
III.0
4VI.0
4IX
.04
XII.04
III.0
5VI.0
5IX
.05
XII.05
III.0
6VI.0
6IX
.06
http://www.webarchiv.cz AKM'06 Praha NA
Provedené sklizně domény .czProvedené sklizně domény .cz 2001 1. pokus o plošnou sklizeň domény .cz, 1 stroj +
páskový robot, nedokončena z tech. důvodů 2002 sklizeň po několika měsících přerušena pro
omezený výkon serveru a záplavy ( tematická sklizeň Povodně)
2004 zastavena po zaplnění dostupného úložného prostoru.
>> všechny sklizně prováděny s >> všechny sklizně prováděny s NEDLIBNEDLIB harvesterem, harvesterem, hloubka zanoření 25-50 odkazůhloubka zanoření 25-50 odkazů << <<
2005 1. pokus o sklizení domény .cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu
září 2006 2. sklizeň domény .cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB
http://www.webarchiv.cz AKM'06 Praha NA
Sklizně domény .cz v číslechSklizně domény .cz v číslech
Rok Počet stažených souborů
Nekomprimovaná velikost [GB]
Doba stahování [dny]
Počet domén druhé úrovně
% z reg. domén
2001 3,015,057 104 21 41,322 38%
2002 10,249,302 307 93 79,022 69%
2004 32,141,575 1,034 204 101,378 75%
2005 9,336,123 247 12 4,795 2%
2006 72,378,019 3,416 40 196,880 74%
http://www.webarchiv.cz AKM'06 Praha NA
Současný stav projektuSoučasný stav projektu 4-6x ročně4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na
které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány).
právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru.
příležitostné tematické sklizně (letos sklizeň volby) čeká se na zprovoznění datového úložiště NK, které
umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén.
v současné době je ve WebArchivuWebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů.
http://www.webarchiv.cz AKM'06 Praha NA
document count per day
0
500000
1000000
1500000
2000000
2500000
3000000
1.9.
2001
1.11
.200
1
1.1.
2002
1.3.
2002
1.5.
2002
1.7.
2002
1.9.
2002
1.11
.200
2
1.1.
2003
1.3.
2003
1.5.
2003
1.7.
2003
1.9.
2003
1.11
.200
3
1.1.
2004
1.3.
2004
1.5.
2004
1.7.
2004
1.9.
2004
1.11
.200
4
1.1.
2005
1.3.
2005
1.5.
2005
1.7.
2005
1.9.
2005
1.11
.200
5
1.1.
2006
1.3.
2006
1.5.
2006
1.7.
2006
1.9.
2006
1.11
.200
6
cz2006
cz2004
cz2002cz2001
cz2005
agreements
agreements
Počet dokumentů sklizených za denPočet dokumentů sklizených za den
http://www.webarchiv.cz AKM'06 Praha NA
Počet souborů a objem dat
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
4 B
8 B
16 B
32 B
64 B
128
B25
6 B
512
B1
kB2
kB4
kB8
kB16
kB32
kB64
kB
128
kB
256
kB
512
kB1
MB
2 M
B4
MB
8 M
B
16 M
B
32 M
B
64 M
B
128
MB
256
MB
2001 count
2001 size
2002 count
2002 size
2004 count
2004 size
2006 count
2006 size
all count
all size
http://www.webarchiv.cz AKM'06 Praha NA
Změny softwarového vybaveníZměny softwarového vybavení 2004-2005 postupný přechod na SW vyvíjený konsorciem
IIPC (International Internet Preservation Consortium – www.netpreserve.org)
vývoj softwarového vybavení v rámci IIPC stále probíhá archivní souborový formát tar.gz nahrazen ARCARC
formátem (podporovaným nástroji IIPC) bylo nutno převést již uložená data do nového formátu.
připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti.
podpora komprese dat a správy jejich integrity schopnost ukládat jedinečné identifikátory záznamů schopnost uložit metadata o datových transforamcích a o
duplikovaném obsahu podpora pro zpracování velmi rozsáhlých záznamů
http://www.webarchiv.cz AKM'06 Praha NA
Budoucnost projektu Budoucnost projektu pokračovánípokračování
maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění
legální lokální zpřístupnění celého archivu (vyhledávání podle URL a času sklizně dokumentu) – počátkem roku 2007
vylepšení indexace (inkrementální indexování, distribuovaný index?)
pokus o automatizované sklízení bohemikálních zdrojů mimo doménu .cz
podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů)
2008 integrace do připravované „Digitální knihovny ČR”
http://www.webarchiv.cz AKM'06 Praha NA
Webarchiv – jak to funguje
A1 nová sklizeň A2 konec sklízení -> indexovat A3 aktualizovat fulltext A4 aktualizovat seznam souborů
http://www.webarchiv.cz AKM'06 Praha NA
Akvizice - Heritrix Akvizice - Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní
verze 1.10.1) zkvalitňování systému zvýšení bezpečnosti
platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci
třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v
průběhu sklizně
http://www.webarchiv.cz AKM'06 Praha NA
Akvizice - Akvizice - DeDuplicatorDeDuplicator
Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se
mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).
formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC
http://www.webarchiv.cz AKM'06 Praha NA
Akvizice – WEB CURATOR TOOLAkvizice – WEB CURATOR TOOL nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a
Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům
prostřednictvím graficky přívětivého a propracovaného webového rozhraní
výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro
platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).
nekonzistentní konfigurace
http://www.webarchiv.cz AKM'06 Praha NA
Indexace – Nutch, NutchWAX Indexace – Nutch, NutchWAX Nutch volně dostupný modulární vyhledávací enginevyhledávací engine umí stáhnout a zpracovat miliony stránek měsíčně;
spravovat jejich index, vyhledávat v něm 1000x za vteřinu
NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro
potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko
Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)
tato verze je zatím nestabilní
http://www.webarchiv.cz AKM'06 Praha NA
WERA - WERA - WEb aRchive AccessWEb aRchive Access
spolupráce konsorcia IIPC, Internet Archive a NWA využívá hlavní části NWA Toolset velmi snadná navigace a propracované uživatelské
rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi
přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL
zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy
archivované dokumenty a WERA propojeny skrz index NutchWAXe
Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback
http://www.webarchiv.cz AKM'06 Praha NA
WAYBACKWAYBACK Aplikace, která v budoucnu nahradí stávající Wayback
Machine Internet Archivu
Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci
Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do
archivu) Proxy = chová se jako proxy server, ale je pak složité
měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální
Připravuje se podpora fulltextového vyhledávání a lokalizace
http://www.webarchiv.cz AKM'06 Praha NA
Zkusíte to také??Zkusíte to také??
dejte nám tipy na zdroje převezměte naše zkušenosti
začněte sklízet sami minimální požadavky: slušné PC,
přiměřené množství úložného prostoru, dobrý správce systému/programátor
realizovaná spolupráce: Univerzitná knižnica Bratislavav budoucnu maďarská NK?
po dohodě sklizeň na požádání
http://www.webarchiv.cz AKM'06 Praha NA
Děkujeme za pozornost
a těšíme se na budoucí spolupráci!