dr dušan ljubičić...koje se uz besplatan nalog na archive.org mogu pozajmiti na period od dve...
TRANSCRIPT
Internet servisi
Internet arhiv
dr Dušan LjubičićBeogradska akademija poslovnih i
umetničkih strukovnih studija
Internet arhiv
• Internet arhiv (Internet Archive) je neprofitna digitalnabiblioteka koja se bavi arhiviranjem veb-sajtova idrugih artefakata kulture u digitalnom formatu, saciljem da ih sačuva od nestanka i učini javnodostupnim
• Prosečan vek veb stranice je oko 100 dana, dok većina članaka bude zaboravljena 5 minuta posle objavljivanja
• Adresa sajta je https://archive.org4/19/2020 Internet servisi – dr Dušan Ljubičić 2
Gde se koristi
4/19/2020 Internet servisi – dr Dušan Ljubičić 3
Podela sadržaja
• Sadržaji u Arhivu su podeljeni po vrsti medija na: 1) veb (web); 2) knjige i tekstovi (texts); 3) video (video); 4) zvuk (audio); 5) softver (software) i 6) slike (images)
• Klikom na neku od ikona prikazaće se istaknuti linkovi itop-kolekcije za svaku od arhiva, osim za veb, za koji se prikazuje polje za pretragu vejbek mašine
4/19/2020 Internet servisi – dr Dušan Ljubičić 4
Osnivač i sedište
• Internet arhiv je osnovao Bruster Kejl (Brewster Kahle) u maju 1996. godine, sa ciljem da omogući univerzalnipristup kompletnom ljudskom znanju koji će svimljudima biti dostupan u bilo koje vreme i besplatno
• Podaci Internet arhiva su smešteni u data centrima u tri grada u Americi, a Bekap arhive se čuva u Amsterdamu i u biblioteci Alexandrina u Aleksandriji
• Sedište Arhiva je u San Francisku
4/19/2020 Internet servisi – dr Dušan Ljubičić 5
Arhiviranje vebaWayback Machine
• Arhiviranje veba je glavna aktivnost Internet arhiva
• Za svaki arhivirani veb-sajt postoji od nekoliko do nekoliko stotina hiljada snimaka (snapshots) izrazličitih vremenskih perioda
• Vejbek mašina (Wayback Machine) je servis kojiomogućava ljudima da pregledaju arhivirane verzijeveb-sajtova
• Ona dodaje vremensku dimenziju vebu
4/19/2020 Internet servisi – dr Dušan Ljubičić 6
Wayback Machine
• Vejbek mašina je direktno dostupna sa početne stranesajta https://archive.org i sa stranehttps://archive.org/web, koja se otvara klikom naikonu veba ili klikom na waybackmachine
• Adresa sajta čiju arhivu želimo da vidimo, kuca se u polju za pretragu (enter URL or keywords)
4/19/2020 Internet servisi – dr Dušan Ljubičić 7
Pretraga nanivou domena
• Umesto adrese sajta može se uneti i adresa domena, npr. ibm.com, arhive.com, blog.arhive.com, microsoft.com, google.com, bbs.edu.rs
• Ako se pretraga vrši na nivou domena, vejbek mašinaće prikazati arhivu i za sve poddomene
• Iako izbacuje određene rezultate, Internet arhiv jošuvek u potpunosti ne podržava za pretragu po ključnim rečima (maj, 2019)
4/19/2020 Internet servisi – dr Dušan Ljubičić 8
Rezultat pretrage
• Kao rezultat pretrage, vejbek mašina prikazuje kalendar sa kružno osenčenim datumima poslednje godine kada je sajt snimljen
4/19/2020 Internet servisi – dr Dušan Ljubičić 9
Rad sa kalendarom
• Godine su prikazane iznad kalendara
• Klikom na broj godine dobija se kalendar sa snimcima za tu godinu
• Iznad godina je naveden ukupan broj snimaka i vremenski interval u kojem su napravljeni
• Pokazivanjem na osenčeni datum prikazaće se linkovi na snimke koji su urađeni taj dan
• Klikom na link prikazaće se arhivirani sajt
4/19/2020 Internet servisi – dr Dušan Ljubičić 10
Rad sa kalendarom
• Krugovi koji označavaju datume kada su rađeni snimci mogu biti različite veličine i boje
• Veličina kruga ukazuje na veći broj snimaka
• Plava boja, koja se uglavnom pojavljuje, pokazuje da je snimak dobar
• Zelena pokazuje da je u pitanju redirekcija, a narandžasta znači da URL nije pronađen, a crvena da je došlo do greške na serveru
4/19/2020 Internet servisi – dr Dušan Ljubičić 11
Primer
• Izgled sajta www.bbs.edu.rs 22. februara 2011. godine, odnosno ono što je crawl softver snimio tog dana u 22:04:42
4/19/2020 Internet servisi – dr Dušan Ljubičić 12
Šta se koristi
• Za pretraživanje veba i kopiranje veb stranica Internet arhiv koristi svoj crawl program Heritrix, koji je razviozajedno sa Nordic national libraries
• Najveći deo podataka kao donaciju Internet arhivdobija od Alexa Internet i drugih kompanija koje se bave pretraživanjem i indeksiranjem veba
• Prikupljaju se samo podaci koji su javno dostupni
4/19/2020 Internet servisi – dr Dušan Ljubičić 13
Korisnici samičuvaju stranice
• Korisnici takođe mogu i sami da arhiviraju željenu vebstranicu preko polja Save Page Now, koje je dostupnopreko stranice https://archive.org/web ili prekopretplatničkog servisa Arhiv-it (https://archive-it.org), koji je Internet arhiv pokrenuo 2006. godine
4/19/2020 Internet servisi – dr Dušan Ljubičić 14
Kada je počelo
• Iako je još na samom početku počeo da arhivira veb stranice, Internet arhiv je tek u oktobru 1996. počeo sa masovnim arhiviranjem veba
• Tokom prvih 6 godina arhivirano je preko 10 milijardi veb stranica
• Međutim one su javnosti postale dostupne tek 2001. godine sa uvođenjem programa Wayback Machine, koji su napisali Bruster Kejl i Brus Džiliat (Bruce Gilliat)
4/19/2020 Internet servisi – dr Dušan Ljubičić 15
Interval arhiviranja
• Vejbek mašina veb stranice arhivira u varijabilnimvremenskim intervalima, koji se kreću od nekoliko sati od nekoliko dana, nedelja, meseci ili godina
• Za svaku stranicu vejbek mašina arhivira sadržaj koji se nalazi u samoj stranici i, kada je to moguće, sadržajkoji se nalazi na eksternim lokacijama (npr. slike)
4/19/2020 Internet servisi – dr Dušan Ljubičić 16
Ne arhivira se sve
• Vejbek mašina ne arhivira uvek sve stranice nekog domena
• Stranice do kojih se dolazi sa većim brojem klikova od zadatog se ne arhiviraju
• Stranice koje su izvan definisanog obima pretrage (DomainScope, HostScope, PathScope), takođe se ne arhiviraju
• Takođe, postoje mnoge situacije u kojima vejbek mašina neće arhivirati kompletan sadržaj veb stranice, tako da će one biti prikazane nekompletne
4/19/2020 Internet servisi – dr Dušan Ljubičić 17
Ne arhivira se sve
• Nedostajaće neka slika, video, dinamički sadržaji koji se oslanjaju na serverski kôd neće raditi itd
• Ne arhiviraju se stranice, ili delovi stranice koji su navedeni u datoteci robot.txt, npr. umesto slika koje su zabranjene preko datoteke robot.txt biće prikazani sivi okviri
• Takođe treba imati u vidu da se veb stranice ne snimaju ponovo svaki put kada su ažurirane, tako da neće biti sačuvane sve njene promene
• Na zahtev vlasnika sajta, određene strane mogu biti uklonjene iz arhive4/19/2020 Internet servisi – dr Dušan Ljubičić 18
Archive-It
• Pretplatnički servis Internet arhiva, omogućava korisnicimada sami arhiviraju svoje veb stranice, pokrenut 2006.
• Pretplatnici imaju punu kontrolu na svojim digitalnimsadržajem
• Mogu da kreiraju svoje javne ili privatne kolekcije
• Sadržaj se čuva u data centrima Internet arhiva i dostupanje sve vreme
• Za razliku od vejbek mašine, Archive-it podržava punutekstualnu pretragu4/19/2020 Internet servisi – dr Dušan Ljubičić 19
Ko koristi Archive-It
• Koriste ga koledži, univerziteti, biblioteke, instituti, državne arhive, biblioteke, savezne institucije, muzeji, galerije umetnosti, javne biblioteke, lokalne uprave, nevladine organizacije itd.
4/19/2020 Internet servisi – dr Dušan Ljubičić 20
Alternativni sajtoviza arhiviranje veba
• Alternativni sajtovi za arhiviranje veba mogu da se podele na one koji omogućavaju :
– samo pregledanje arhiviranih verzija (Archive.is, Screenshots, WebCite, Competitorscreenshots iDomain Tools)
– kreiranje vlastite vejbek mašine (Pagefreezer iActiance )
4/19/2020 Internet servisi – dr Dušan Ljubičić 21
Archive.is
• Archive.is (archive.is) je najbolja zamena za vejbekmašinu
• Veb stranice čuva u HTML formatu i kao slike ekrana(screenshot)
• Sa određenim ograničenjima HTML datoteka možeda se preuzme
• Baza podataka je oko 5% od veličine baze archive.org
4/19/2020 Internet servisi – dr Dušan Ljubičić 22
Archive.is
• Frekvencija snimanja je mala
• Na primer, www.bbs.edu.rs snimljen je samo jednom, a na archive.org 171 put
• Dubina snimanja je, takođe, mala
• Obično se snima samo prva strana
• Pored pregledanja, korisnici mogu da arhiviraju svojeveb stranice
4/19/2020 Internet servisi – dr Dušan Ljubičić 23
Archive.is
4/19/2020 Internet servisi – dr Dušan Ljubičić 24
WebCite
• (Webcitation.org) arhivira citirane veb stranice, i to onakve kakve su bile kada ih je neki autor citirao
• Kako se na samom sajtu navodi, autori sve češćecitiraju veb stranice i druge digitalne sadržaje
• Po jednom istraživanju posle 27 meseci oko 13% tihsadržaja nestane
• Drugi problem je što citirane stranice u međuvremenu mogu da se promene, tako da čitalacne može da pronađe navedenu referencu
4/19/2020 Internet servisi – dr Dušan Ljubičić 25
ScreenshotsDomaintools
• (Screenshots.com) čuva slike ekrana samo prvihstranica veb-sajta. Omogućava uvid i u neke drugeinformacije o sajtu, kao što su vreme kad je sajtregistrovan, broj vlasnika itd. Njegova baza je manjaod 1% od baze archive.org
• (Domaintools.com), isto kao i Screanshoots, kojikoristi njegov API, veb stranicu snima kao sliku. Omogućava i dodatne informacije o sajtu kroz Whoisservis
4/19/2020 Internet servisi – dr Dušan Ljubičić 26
Competitorscreenshots
• (Competitorscreenshots.com) se prvenstveno koristi za poređenje brendova
• Moguće je porediti slike veb stranica, imejl kampanju, aktivnosti na društvenim mrežama za prethodnih 60 dana sa besplatnim nalogom
• Za duže periode se plaća
• Koristi se kod izrade marketing strategije
4/19/2020 Internet servisi – dr Dušan Ljubičić 27
Druga grupaalternativnih rešenja
• Druga grupa alternativnih rešenja omogućavakreiranje privatne vejbek mašine
• Ova rešenja pogodna su za kompanije koje moraju da prate promene na svojim veb-sajtovima, da prate aktivnosti na socijalnim mrežama i blogovima, objavei grupne diskusije zaposlenih itd.
• Mnoge državne službe i finansijske institucije su po zakonu obavezne da ispune određene propise po ovim pitanjima
4/19/2020 Internet servisi – dr Dušan Ljubičić 28
Druga grupaalternativnih rešenja
• Ova rešenja su pogodna za praćenje promena kodkonkurencije, ili nekih drugih sajtova od interesa
• Treba imati u vidu da arhive koje postoje naArhive.org na zahtev vlasnika sajta u svakommomentu mogu da budu uklonjene
• Korisnici u ovom slučaju imaju punu kontrolu nadarhivom i mogu da podese intervale snimanja vebstranica. Snimaju se sve stranice domena i svipovezani digitalni sadržaji (video, audio, PDF itd.)
4/19/2020 Internet servisi – dr Dušan Ljubičić 29
Ostali servisiInternet arhiva
• Preostali sadržaj Internet arhiva podeljen je na 5 grupa:
– knjige i tekstovi
– Video
– Audio
– Softver
– Slike4/19/2020 Internet servisi – dr Dušan Ljubičić 30
Ostali servisiInternet arhiva
• Sadržaji mogu da se pretražuju po metapodacima
• Pretraživanje po ključnim rečima još uvek u potpunosti nije omogućeno
• Filtriranje sadržaja može da se radi po vrsti medija, po godini, po temama, kreatorima, jeziku i po kolekcijama
• Kolekcije su tematske zbirke sadržaja koji pripadajuistoj grupi (knjige, video, audio, softver, slike)
4/19/2020 Internet servisi – dr Dušan Ljubičić 31
Ostali servisiInternet arhiva
• Kolekcije prave ovlašćena lica Internet arhiva na svojuili inicijativu donatora sadržaja
• Prilikom poklanjanja sadržaja Internet arhivu, koji se uglavnom radi otpremanjem (upload) preko veb-sajta, donatori u okviru CC licence (CC - Creative Commons license) treba da navedu šta ljudi mogu da rade sa tim materijalom (npr. da ga slobodno koriste, dele, kreiraju nove sadržaje na osnovu njega itd.)
4/19/2020 Internet servisi – dr Dušan Ljubičić 32
Knjige i tekstovi
• Internet arhiv poseduje preko 20 miliona knjiga i tekstova koji se mogu besplatno preuzeti i preko 7 hiljada kolekcija
• Mesečno se beleži preko 30 miliona preuzimanja
• Takođe poseduje preko 1,3 miliona savremenih e-knjiga koje se uz besplatan nalog na archive.org mogu pozajmiti na period od dve nedelje
• Knjige mogu da se čitaju preko veb pregledača ili preko e-book čitača Adobe Digital Edition. Preko 2,4 miliona knjiga je onlajn dostupno
4/19/2020 Internet servisi – dr Dušan Ljubičić 33
Biblioteke
• Arhiv takođe omogućava besplatan i anoniman pristup za preko 4 miliona sudskih mišljenja i pravnih izveštaja koji su preuzeti od saveznih sudova SAD
• Svoju biblioteku Internet arhiv gradi kroz saradnju savelikim brojem biblioteka i dobavljača sadržaja širomsveta, kroz svakodnevno skeniranje knjiga idokumenata i kroz donacije
• Microsoft je, pored finansijske podrške, Arhivi pokloniopreko 300 hiljada skeniranih knjiga i opremu za skeniranje (2006 – 2008)
4/19/2020 Internet servisi – dr Dušan Ljubičić 34
Knjige, skeniranje
• Svoje knjige u digitalnoj formi autori (ili vlasnici prava) mogu da otpreme preko sajta Arhive
• Knjige u fizičkom obliku mogu da predaju (pošalju) nekomod centara za skeniranje
• Internet arhiv poseduje 33 centra za skeniranje na 5 kontinenata
• Dnevno se skenira preko 1.000 knjiga
• Internet arhiv je digitalizovao preko 2 miliona knjiga, arhivskog materijala, dnevnika, mapa, fotografija i drugihsadržaja
4/19/2020 Internet servisi – dr Dušan Ljubičić 35
Otvorena biblioteka
• Open Library je projekat Internet arhiva iz 2007. godine koji ima za cilj da za svaku knjigu bilo kad objavljenu napravi po jednu veb stranicu
• Open Library sadrži bibliografske podatke o knjigama i pruža pristup prema 1,7 miliona skeniranih knjiga
• Bibliografski podaci sadrže i veze prema spoljnim mestima gde se knjige koje nisu dostupne preko Arhiva mogu kupiti (npr. Amazon ili najbliža knjižara) ili iznajmiti (npr. najbliža biblioteka)
4/19/2020 Internet servisi – dr Dušan Ljubičić 36
Otvorena biblioteka
• Informacije o knjigama se prikupljaju od drugih biblioteka, Amazona i drugih izvora
• Već su urađene veb stranice za preko 20 miliona knjiga
• Za osobe koje iz nekog razloga nisu u stanju da čitaju, ili žele da čuju knjigu, biblioteka je obezbedila veliki broj audio izdanja koja podržavaju i glasovnu navigaciju
4/19/2020 Internet servisi – dr Dušan Ljubičić 37
Zvuk
• Audio arhiva sadrži preko 8 miliona audio snimaka, uključujući muziku (koncerte, albume), audio knjige, radio emisije i vesti, čitanja poezije, podkast i druge snimke na engleskom i drugim jezicima
• Sadrži preko 120 hiljada kolekcija
• Većina ovih sadržaja je besplatno dostupna
• Kod onih koji nisu, kao što su uglavnom muzički albumi, korisnici mogu da čuju po deo svake pesme
4/19/2020 Internet servisi – dr Dušan Ljubičić 38
LibriVox iLive Music Archive
• LibriVox je zajednica volontera iz celog sveta kojisnimaju javno dostupne tekstove, uključujući poeziju, knjige, kratke priče i drame
• Sadržaji su besplatno dostupni sa stranica njihovogsajta
• Internet arhive odvojeno hostuje snimke LibriVox-a u MP3 i Ogg Vorbis format
• Live Music Archive sadrži veliki broj koncerata uživokoji može besplatno da se preuzme ili strimuje. Ovuarhivu održava Live Music Archive i volonteri
4/19/2020 Internet servisi – dr Dušan Ljubičić 39
Softver
• Internet arhiv ima najveću zbirku softvera i veliki brojpovezanih materijala, uključujući računarske knjige ičasopise, dokumentaciju, video vesti, CD-ROM omote, promocije i sl.
• Pokriva preko 50 godina računarske istorije
• Arhiv nije napravljen radi preuzimanja softvera, negoprvenstveno radi njegovog očuvanja
• Stariji programi i igrice, koji više nisu aktualni, mogu da se pregledaju ili igraju preko odgovarajućeg emulatora kojise izvršava u veb pregledaču
4/19/2020 Internet servisi – dr Dušan Ljubičić 40
Slike
• Arhiv slika sadrži preko 3.4 miliona stavki, uključujući slike umetničkih dela iz muzeja umetnosti, fotografije koje je pravila NASA, različite umetničke fotografije, mape itd.
4/19/2020 Internet servisi – dr Dušan Ljubičić 41
Internet servisi
Internet arhiv
dr Dušan LjubičićBeogradska akademija poslovnih i
umetničkih strukovnih studija