głęboka sieć - ldw

21
Szukanie informacji w Sieci - ukryte zasoby WEB” Część II Co to jest ukryty Web? Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy Definicje i terminy Roboty standardowych wyszukiwarek (Google, Netsprint) indeksują tylko te strony (najczęściej statyczne HTML), do których odnośniki znajdują się na innych witrynach albo zostały zgłoszone do wyszukiwarek przez użytkowników. Tę część sieci – rozpoznawalną przez wyszukiwarki - określa się jako widoczną / płytką / indeksowaną (ang. surface web, visible web, indexable web). Pozostałe zasoby sieci - trudno dostępne dla standardowych wyszukiwarek – nazywane są ukryty Web / niewidoczny web / głęboki web (ang. hidden web, deep web, invisible web). Terminu „invisible Web” użył po raz pierwszy w 1994 r. Jill Ellsworth dla określenia informacji „niewidzialnych” dla konwencjonalnych wyszukiwarek. Najczęściej cytowane definicje ukrytej sieci to:

Upload: bogdan-mis

Post on 11-May-2015

5.259 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Głęboka sieć - LDW

„Szukanie informacji w Sieci - ukryte zasoby WEB”

Część II

Co to jest ukryty Web?

Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy

Definicje i terminy

Roboty standardowych wyszukiwarek (Google, Netsprint) indeksują tylko te strony (najczęściej statyczne HTML), do których odnośniki znajdują się na innych witrynach albo zostały zgłoszone do wyszukiwarek przez użytkowników. Tę część sieci – rozpoznawalną przez wyszukiwarki - określa się jako widoczną / płytką / indeksowaną (ang. surface web, visible web, indexable web). Pozostałe zasoby sieci - trudno dostępne dla standardowych wyszukiwarek – nazywane są ukryty Web / niewidoczny web / głęboki web (ang. hidden web, deep web, invisible web). Terminu „invisible Web” użył po raz pierwszy w 1994 r. Jill Ellsworth dla określenia informacji „niewidzialnych” dla konwencjonalnych wyszukiwarek. Najczęściej cytowane definicje ukrytej sieci to:

wg C. Shermana i G. Price’a (2001) - Invisible Web – dostępne w sieci i często bardzo wartościowe strony tekstowe, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń nie indeksują ogólne wyszukiwarki; wg M. K. Bergmana (2001) – Deep web – strony www tworzone dynamicznie jako wyniki specjalistycznych wyszukiwań w bazach danych.

Zasoby deep Web

Page 2: Głęboka sieć - LDW

Typy zasobów deep Web

W Cz. I wykładu przedstawiono działanie robotów wyszukiwarek i zasobów sieci przez nie penetrowanych. Zgodnie z w/w definiajmi ukryty Web to zasoby sieciowe nie wyszukiwane przy pomocy standardowych wyszukiwarek. Jakie to zatem typy zasobów?

zawartość publicznie dostępnych baz danych

Większość zasobów sieci ukrytej stanowią bazy danych (głównie relacyjne), których zawartości nie jest w stanie spenetrować robot konwencjonalnej wyszukiwarki. Znajdzie on jedynie stronę główną bazy, gdzie następnym krokiem jest zadanie pytania bazie danych, czego wyszukiwarka już nie potrafi. Tak więc ogromne zasoby (miliardy rekordów, pełnych tekstów publikacji) pozostają „w ukryciu”, choć są dostępne w sieci i to często jako strony HTML, ale wygenerowane po zadaniu pytania bezpośrednio bazie danych. W tej grupie zasobów ukrytej sieci mieści się również zdecydowa większość katalogów bibliotecznych bibliotecznych i innych baz danych tworzonych przez biblioteki, np. bibliografii publikacji pracowników1. W tej grupie są również archiwa gazet i czasopism, słowniki, książki telefoniczne itp. Ale oczywiście nie jest to regułą. Wszystko zależy od technologii, w której tworzona jest baza danych i jak współpracuje z robotem konkretnej wyszukiwarki.

strony i pliki nietekstowe, w innych formatach niż HTML

Raport Bergmana i praca C. Shermana i G. Price’a powstały w czasie, gdy roboty wyszukiwarek nie radziły sobie z indeksowaniem stron i plików zapisanych w formatach innych niż HTML. Do zasobów ukrytych zaliczano więc wszystkie inne materiały, np.

dokumenty PDF, Postscript, PHP, doc, xls, ppt, rtf

witryny czy elementy prezentacji stworzone w technologii Flash czy JavaScript

pliki multimedialne, nagrania dźwiękowe, obrazy, pliki video struktury substancji chemicznych programy pliki skompresowane (np. *zip, *tar)

Obecnie najlepsze wyszukiwarki bez trudu znajdują strony zapisane w PDF, Postscript, doc, xls, ppt, rtf, o ile spełniają inne kryteria robotów. Problemem nadal pozostają witryny stworzone w całości lub częściowo w technologii Flash2, które dla większości robotów są nieczytelne, a więc treści na nich zawarte – często wartościowe – pozostają częściowo „w ukryciu”. Roboty nie radzą sobie też plikami graficznymi, dźwiękowymi, video. Dostępne są wprawdzie opcje przeszukiwania grafiki, audio czy video, ale np. robot Google nie rozpoznaje tekstu zawartego w grafice – wyszuka obrazek tylko wtedy, gdy nazwa pliku lub tekst w jego pobliżu w kodzie źródłowym odpowiada naszemu zapytaniu.

strony, do których nie prowadzą odsyłacze z innych witryn

Zgodnie z jedną z zasad działania robotów wyszukiwarek – indeksowania stron, do których prowadzi przynajmniej jeden link z innej strony - do indeksów wyszukiwarek nie zostaną włączone strony, do których brak odsyłaczy z innych stron i pozostaną „w ukryciu”.

strony internetowe wyłączone z procesu indeksacji przez twórców

Niektóre serwisy (w tym komercyjne bazy danych) wymagają płatnej rejestracji bądź są dostępne dla subskrybentów po dokonaniu autoryzacji, więc ze względów oczywistych takie zasoby muszą byćwyłączone z procesu indeksacji przez wyszukiwarki. Roboty nie są również w stanie, z powodów technicznych, zalogować się do serwisów wymagających bezpłatnej rejestracji. Te dwa rodzaje zasobów tworzą tzw. Sieć

Page 3: Głęboka sieć - LDW

zastrzeżoną, której pokaźną częścią są cenne zasoby naukowych baz danych, np. Inspec, ESSCO. Niektórzy dostawcy3 ujawniają dla Gogle informacje ze swoich baz do poziomu np. opisu bibliograficznego, a reszta (abstrakt, pełen tekst) jest zastrzeżona. Druga grupa stron wyłączonych z indeksacji to te, których twórcy zabronili robotom wyszukiwarek indeksowania treści dokumentów i zamieścili pliki robot.txt w kodzie źródłowym strony. strony i pliki tworzone dynamicznie lub w czasie rzeczywistym

Strony generowane dynamicznie, w ramach zazwyczaj dużych serwisów internetowych tworzonych przy pomocy np. technologii ASP czy PHP, powstają po zainicjowaniu pewnej „akcji” przez użytkownika, np. zadanie pytania bazie danych albo wyszukiwarce serwisu, wypełnienie formularza czy ustawianiu własnych preferencji. Jest to więc informacja generowana „w locie” i tworzona przez specjalne skrypty, zgodnie z potrzebami konkretnego użytkownika strony i niekoniecznie istotna dla innego użytkownika. Adres URL stron tworzonych dynamicznie jest zazwyczaj bardzo długi i zawiera „?”. Nie każdy robot wyszukiwarki odnajdzie taką stronę, a te które znajdują często nie zamieszczają w swoich indeksach. Kolejnym problemem dla standardowych wyszukiwarek są strony tworzone w czasie rzeczywistym, których zawartość zmienia się prawie każdego dnia, np. notowania giełdowe, prognozy pogody, rozkłady lotów. Roboty często celowo rezygnują z ich indeksowania, gdyż są to dane “ulotne”, krótkotrwałe, a przede wszystkim w wielkich ilościach.

Rodzaje informacji w deep web

Wymienione wyżej typy zasobów trudno dostępnych dla standardowych wyszukiwarek wyszczególniono w punktu widzenia technicznego, technologicznego bądź prawnego, biorąc pod uwagę rodzaje formatów i metody tworzenia zasobów. Jakie natomiast rodzaje informacji kryją się w sieci pozornie niewidzialnej? Autorzy wielu publikacji na ten temat zgodnie podkreślają, że większość stanowią bardzo wartościowe materiały, a pośród nich:

publikacje i raporty naukowe, dysertacje (pełne teksty lub abstrakty) artykuły z gazet i czasopism (pełne teksty lub abstrakty) dokumenty rządowe archiwa materiałów źródłowych i referencyjnych

zasoby biblioteczne (katalogi, zbiory digitalizowane, publikacje pracowników uczelni) niektóre repozytoria Open Access

szara literatura

dane, wzory, grafiki

słowniki i encyklopedie, bazy teleadresowe i wiele, wiele innych

W tej grupie dokumentów przeważająca część to materiały przydatne dla nauki i edukacji. D. Lewandowski i P. Mayr (2006) zaproponowali nawet termin „Naukowa Sieć Niewidzialna” dla określenia baz danych i kolekcji o istotnym znaczeniu dla środowisk naukowych, bibliotekarzy i specjalistów informacji, a nie wyszukiwalnych przez standardowe wyszukiwarki. Naukowa Sieć Niewidzialna zawiera literaturę (np. artykuły, rozprawy, raporty, książki), dane (np. dane z badań), materiały wyłącznie online (np. dokumenty Open Access). Głównymi dostarczycielami tych zasobów są: twórcy i sprzedawcy baz danych i innych serwisów (np. document delivery), biblioteki, wydawcy komercyjni, uczelnie i instytucje naukowe, stowarzyszenie i organizacje.

Wielkość zasobów ukrytych w porównaniu z siecią „płytką”

Page 4: Głęboka sieć - LDW

Powszechnie wiadomo, że nie da się zliczyć wszystkich stron WWW na świecie, ani też nie da się zliczyć tego co „widzą” wyszukiwarki. Same największe wyszukiwarki przestały nawet publicznie informować ile dokumentów liczą ich indeksy. Mimo to, co pewien czas podejmowana są badania, w których naukowcy starają się oszacować wielkość surfach Web czy deep Web. Poniżej wybrane wyniki badań od 1999 r.

NEC Research Institute, 1999 r.:

publicznie dostępne zasoby sieci indeksowane przez wyszukiwarki liczyły 800 mln dokumentów (18700 GB) wyszukiwarki indeksowały średnio zaledwie 16% wszystkich stron internetowych

Cyveillance Corporation, 2000 r.:

zasoby tzw. "płytkie", liczyły 2,5 mld dokumentów (1 mld stron WWW) o łącznej wielkości ok. 19 terabajtów dziennie przybywało średnio 7,3 mln dokumentów

Bright Planet, 2001 r. (Bergman, 2001) – praca szeroko cytowana; wiele innych badań bazuje na jej wynikach

deep web jest ok. 400-550 razy większy niż zasoby indeksowane przez wyszukiwarki i liczy ok. 550 mld dokumentów (7.500 terabajtów) 60 największych baz danych ukrytego Internetu zawiera 750 TB danych ok. 95% zasobów "ukrytych" jest dostępnych publicznie, bezpłatnie ponad połowa to tematyczne bazy danych zasoby deep web są odwiedzane przez użytkowników o 50% częściej niż zasoby „płytkie”

Sherman, C., 2001

ukryty web jest ok. 2-50 razy większy niż zasoby indeksowane przez wyszukiwarki

Lyman, P., Hal R. V. "How Much Information", 2003

Surface Web – 167 TB (na podstawie analizy 9800 witryn) Deep Web - 91,850 TB (na podst. wyników badań Bright Planet)

Gulli, A., Signorini, A. (2005)

wielkość sieci indeksowanej przez wyszukiwarki (surfach Web) - 11,5 mld stron ok. 9,36 mld stron jest dostępnych w indeksach 4 największych wyszukiwarek (Google, Yahoo, MSN, Ask) przeciętnie ok. 70% zasobów surface web można było uzyskać za pomocą w/wwyszukiwarek (np. Google 76%) część wspólna indeksów 4 w/w wyszukiwarek wynosi 2,7 mld stron (28,85%)

Lewandowski, D., Mayr, P. (2006)

podważają szacunki Bergmana (2001) dotyczące wielkości sieci ukrytej i uznają je za bardzo zawyżone z powodu:

błędu statystycznego - korzystania ze średniej zamiast mediany liczenia rozmiaru baz w GB zamiast rekordach rozmiar „naukowej sieci ukrytej” szacują na ok. 20-100 mld dokumentów

Page 5: Głęboka sieć - LDW

W kierunku “uwidaczniania” (naukowych) zasobów ukrytych

„Czy określenia „Głęboki” i „niewidoczny” Internet mają jeszcze sens? Wszak i wyszukiwarki są coraz sprytniejsze, i ludzie potrafią efektywniej korzystać z Internetu. Wielu z nich intuicyjnie korzysta z owych baz danych głębokiego Internetu i pewnie do głowy im nie przyjdzie, że korzystają z czegoś „ukrytego”. A i głeboki Internet coraz częściej wypływa na powierzchnię za sprawą ulepszonych wyszukiwarek globalnych. Czy zostanie całkowicie odsłonięty? Czy może wtedy przyjdzie czas na odsłanianie jeszcze głębszego Internetu?”

Szumilas, D. (2005)

Wszystkich zasobów Web nie da się do końca „uwidocznić”. A nawet jeśli tak, żadna wyszukiwarka nie obejmuje swym zasięgiem całego surfach Web, więc problem pozostanie. Warto więc podejmować pewne działania zmierzające z jednej strony starania do wzajemnej „współpracy” tworzonych zasobów (szczególnie bazodanowych i repozytoriów OA) oraz ich „współpracy” i ze standardowymi wyszukiwarkami, z drugiej – uświadamiania użytkownikom internetu istnienia ukrytego web. Działania te powinni podejmować zarówno twórcy baz danych, wydawcy, biblioteki (razem!), ale i też twórcy wyszukiwarek. I tak właśnie się dzieje, co można zilustrować wybranymi dobrymi przykładami:

Konwersja bazy danych do regularnych stron HTML, np. w Amazon.com, każdy rekord jest konwertowany do HTML i „widoczny” dla robotów wyszukiwarek (można to sprawdzić porównując URL konkretnego rekordu wyszukanego bezpośrednio w Amazon.com i potem tego samego tytułu wyszukanego w Gogle). Stosowanie protokołów Z39.50 i/lub OAI-PMH4 w celu umożliwienia jednoczesnego przeszukiwania (cross rerach) wielu serwisów i baz danych, tych ukrytych i dostępnych dla wyszukiwarek. Doskonałym przykładem jest brytyjski serwis TechXtra http://www.techxtra.ac.uk/ ukierunkowany na inżynierię i technikę, przeszukujący 4 mln rekordów z 29 baz danych, serwisów tematycznych, repozytoriów OA i innych. Innym ciekawym przykładem jest E-Print Network http://eprints.osti.gov/ - serwis przeszukujący repozytoria e-printów z zakresu nauki I techniki. Stosowanie protokołu OAI-PMH w celu wspólnego wyszukiwania w zasobach bibliotek cyfrowych oraz ich uwidaczniania w wyszukiwarkach (Heliński, M. i inni 2005). Dzięki temu zasoby bibliotek polskich stosujących oprogramowanie dLibra http://dlibra.psnc.pl/ (zob. Wdrożenia) mogą być przeszukiwane jednocześnie (opcja „Przeszukaj zdalne biblioteki” na stronie którejkolwiek z nich), są „widoczne” w Google i wyszukiwarkach specjalistycznych, np. OAIster http://oaister.umdl.umich.edu/o/oaister/. Tworzenie specjalistycznych multiwyszukiwarek uwzględniających również zasoby ukryte, np. wersja beta GoshMe http://www.goshme.com/, multiwyszukiwarki przeszukującej 2590 wyszukiwarek I baz danych (obecnie wymagana bezpłatne rejestracja), Turbo10 http://turbo10.com albo Alacra http://www.alacrastore.com/ przeszukująca (bezpłatnie) ponad 200 mln (płatnych) raportów firm oraz artykułów z czasopism biznesowych. Oferowanie przez standardowe wyszukiwarki usług specjalnych i dających dostęp do również do obszarów deep Web. Dobrym przykładem są znane wszystkim Google Scholar i Google Books, umożliwiające nie tylko wyszukiwanie, ale również możliwość sprawdzenia dostępności książek w wielu bibliotekach (w tym NUKAT – opcja „Find In NUKAT”w Google Scholar), dzięki współpracy z WorldCat OCLC czy zamówienia kopii w artykułu w British Library. Z innych warto wymienić Google Patent Serach http://www.google.com/patents (7 mln patentów USA). Ujawnianie, chociażby do poziomu abstraktów, zawartości komercyjnych baz danych i czasopism w standardowych wyszukiwarkach. Użytkownik uprawniony do pełnego korzystania z tych serwisów mógłby uzyskać dostęp do pełnych tekstów publikacji. Np. zasoby IEEE Xplore są w taki sposów wyszukiwalne w Google, dziesiątki wydawców w Live Search (MSN) – Academic - http://search.live.com/ i serwisy wybranych wydawców (np. LexisNexis) w Yahoo! Search Subscriptions http://search.yahoo.com/subscriptions.

Page 6: Głęboka sieć - LDW

Tworzenie usystematyzowanych wg kategorii tematycznych i przeszukiwalnych „bram dostępu” do zasobów ukrytych, np. serwisów typu subject gateways (Derfert-Wolf, L. 2004), np. niemiecka Vascoda http://www.vascoda.de/. Ułatwienie użytkownikom poruszania się po witrynach bibliotecznych, coraz bardziej „obładowanych” informacjami i dostępami do wielu katalogów, baz danych, pełnych tekstów artykułów, bibliotek cyfrowych i innych repozytoriów. Często te materiały są „niewidoczne” dla użytkowników, bo …. jest ich bardzo dużo i linki do nich zamieszczane są w różnych działach, pod nazwami nie zawsze zrozumiałymi. Doskonałym rozwiązaniem jest przeszukiwanie WSZYSTKICH zasobów elektronicznych danej biblioteki (lokalnych i zdalnych) przy pomocy jednego interfejsu. Oczywiście dostęp do zasobów komercyjnych mają wtedy wyłącznie zarejestrowani użytkownicy. Istnieje wiele rozwiązań tego typu. Listę programów zwanych federated search systems znaleźć można m.in. na stronie http://www.loc.gov/catdir/lcpaig/portalproducts.html. Szkolenie użytkowników sieci:

uświadamianie istnienia ukrytego Web i pokazywanie na przykładach czego Google nie wyszuka upowszechnianie wiedzy o ukrytych zasobach Web wskazywanie sposobów poszukiwań tych zasobów w sieci.

„Szukanie informacji w Sieci - ukryte zasoby WEB”

Część III

Jak szukać w zasobach ukrytych?

Page 7: Głęboka sieć - LDW

Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy

Owe zasoby [deep Web] są wszak dostępne i widoczne, tylko trzeba wiedzieć, jak do nich dotrzeć. Są po prostu głębiej schowane. Szumilas, D. (2005)

Dlaczego warto nie poprzestawać na Gogle?

standardowe wyszukiwarki pomijają wiele zasobów deep web informacje w ramach jednego serwisu deep web rzadko się powielają, co w standardowych wyszukiwarkach jest powszechne ukryty web to źródła o wysokiej jakości wartościowe materiały powstające w dzięki uczelniom i instytucjom naukowym, bibliotekom, instytucjom rządowym i międzynarodowym selekcjonowane, sprawdzone i ocenione przez specjalistów kontrolowane pod względem aktualności dane w serwisach deep web są często pogrupowane tematycznie i wyszukiwane wg potrzeb użytkownika wyszukiwanie bardzo specjalistycznych informacji (nawet tych „widzialnych”) da lepsze rezultaty w bazach danych niż w wyszukiwarkach

Jak szukać?

W związku z powyższym nie warto poprzestawać na Gogle, a zasobów „widzialnych” przez Gogle lepiej nieraz szukać gdzie indziej. Wyszukiwanie będzie bardziej efektywne i da lepsze rezultaty. Oto kilka sposobów penetrowania ukrytych - i nie tylko - zasobów Web:

znajomość przydatnych baz danych

Najprostszym sposobem jest bezpośredni dostęp do ważnych baz danych i innych serwisów z interesującej nas dziedziny. Wszystkich oczywiście nie jesteśmy w stanie spamiętać, ale warto tworzyć takie wykazy w bookmarkach czy na prywatnych stronach internetowych. Strony różnych instytucji i bibliotek oferują bogate wykazy linków do przydatnych baz danych.

wyszukiwanie baz danych i innych serwisów w standardowych wyszukiwarkach

Drugim sposobem jest skorzystanie z wyszukiwarki (np. Google) i połączenie odpowiedniego słowa kluczowego ze słowem baza lub wyrażeniem "baza danych" (np. „baza danych” film). Szukając serwisów w innych językach pytanie zadajemy we właściwym języku. Podobnie postępujemy szukając wyszukiwarek specjalistycznych. Możemy w Google wpisać np. environment "search engine" albo wyszukiwarka mp3.

bazy baz

Trzecim sposobem jest skorzystanie ze specjalnych metabaz, które wyszukują odpowiednie profesjonalne bazy danych. Przykładem jest CompletePlanet. Takie metabazy można przeglądać wg dziedzin lub

Page 8: Głęboka sieć - LDW

przeszukiwać wg słów kluczowych. W rezultacie otrzymamy linki do odpowiednich baz danych, a często bezpośrednie połączenie do formularza wyszukiwawczego w danej bazie.

katalogi tematyczne, subject gateways, portale tematyczne

Kolejną metodą dostępu do ukrytych zasobów web jest wertowanie specjalnych katalogów ukierunkowanych na konkretne dziedziny wiedzy lub przeznaczonych dla określonych grup odbiorców. Nie chodzi tu o katalogi omawiane w I części wykładu, a raczej o specjalistyczne bazy zasobów sieciowych, usystematyzowane wg dziedzin wiedzy i oceniane przez specjalistów dziedzinowych. Najlepszymi przykładami są serwisty typu subject gateways, np. brytyjski INTUTE, niemiecka Vascoda czy amerykański Infomine, przeznaczone dla środowisk naukowych, uczniów i studentów. Przeszukując te serwisy można trafić na ciekawe bazy danych lub po prostu można im zadać pytanie, np. history database, gdyż większość z nich jest zazwyczaj zaopatrzonych w wyszukiwarkę zasobów.

wyszukiwarki specjalistyczne

Bezpośrednie dotarcie do określonych zasobów ukrytych czy to pod względem treści czy typów danych ułatwią wyszukiwarki specjalistyczne, np. publikacji naukowych – Scirus czy Gogle Scholar, zasobów edukacyjnych - Eric, repozytoriów OA – OpenDOAR, plików dźwiękowych – Singingfish. Powstają również interdyscyplinarne wyszukiwarki zasobów ukrytych, np. Turbo10.

Omówionych w tej części narzędzi wyszukiwawczych jest bardzo dużo. Nie sposób wymienić kilku najlepszych. Prezentowana poniżej lista zawiera najczęściej cytowane zbiorcze wykazy baz danych i wyszukiwarek specjalistycznych oraz zasobów deep web. Serwisy najczęściej powtarzające się na tych wykazach i przeznaczone głównie dla nauki i edukacji zamieszczono w Tab. 1.

Zbiorcze wykazy baz danych i wyszukiwarek specjalistycznych oraz zasobów deep web:

About.com - Find Out More About The Deep Web - Deep Web Search http://websearch.about.com/od/invisibleweb/ Deep Web Research – M. Zillman`s Blog http://www.deepwebresearch.info/ Derfert-Wolf L.: Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways. Wykaz. http://ebib.oss.wroc.pl/2004/57/wykaz.php Gruchawka, S. R. Using the Deep Web : A How-to Guide for IT Professionals. http://www.techdeepweb.com Katalogi kwalifikowanych zasobów internetowych (UMCS) http://www.bg.umcs.lublin.pl/nowa/deep.php Kay B. Discovering The Invisible Web. http://lakenet.org/net_ref/manuals/invisible.html Lackie R. J. Those Dark Hiding Places: The Invisible Web Revealed. Rider University. http://www.robertlackie.com/invisible/index.html Pinakes - Heriot-Watt University Library http://www.hw.ac.uk/libWWW/irn/pinakes/pinakes.html Price G. Direct search. http://www.freepint.com/gary/direct.htm

10.Research Beyond Google: 119 Authoritative, Invisible, and Comprehensive Resources.

http://oedb.org/library/college-basics/research-beyond-google

Specialised search engines. Tilburg University. http://www.tilburguniversity.nl/services/library/instruction/www/onlinecourse/special.html Zillman, M. P. Academic and Scholar Search Engines and Sources – An Internet MiniGuide Annotated Link Compilation. http://whitepapers.virtualprivatelibrary.net/Scholar.pdf Zillman, M. P. Deep Web Research Research 2007. http://www.llrx.com/features/deepweb2007.htm

Tab. 1 Wyszukiwarki Deep Web, wyszukiwarki specjalistyczne, katalogi tematyczne (głównie naukowe)

Page 9: Głęboka sieć - LDW

Academic Info http://www.academicinfo.net/ Katalog tematyczny dla uczniów i studentów zawierający 25 tys. Wyselekcjonowanych źródeł sieciowych.

Bartleby.com http://www.bartleby.com/ Wyszukiwarka haseł ze słowników i encyklopedii, cytatów oraz informacji o popularnych pisarzach i poetach wraz z tekstami ich prac.

BUBL http://bubl.ac.uk/ Katalog źródeł internetowych ze wszystkich dziedzin wiedzy akademickiej tworzony przez bibliotekarzy (Strathclyde University, UK). Możliwość przeglądania wg Klasyfikacji Dziesiętnej Deweya typów dokumentów oraz krajów i wyszukiwania wg słów kluczowych.

CiteSeer – Scientific Literature Digital Library http://citeseer.ist.psu.edu/

Wyszukiwarka naukowa działająca na zasadzie indeksu cytowań. Baza CiteSeer zawiera ok. 770 tys. dokumentów.

CompletePlanet http://www.completeplanet.com/ Wyszukiwarka baz danych. Daje dostęp do ponad 70 tys. baz i serwisów wyszukiwawczych. Możliwość wyszukiwania wg słów kluczowych lub przeglądania wg kategorii tematycznych.

Digital Librarian http://www.digital-librarian.com/ Katalog zasobów sieciowych wg dziedzin, opracowywany na bieżąco przez bibliotekarzy amerykańskich.

DOAJ http://www.doaj.org/ Directory of Open Access Journals. Pełne teksty artykułów z ponad 2500 naukowych czasopism elektronicznych, dostępnych bezpłatnie w sieci.

ERIC http://www.eric.ed.gov/ Centrum informacji I biblioteka cyfrowa źródeł edukacyjnych. Dostęp do ponad 1,2 mln rekordów bibliograficznych artykułów z czasopism i innych źródeł, z których wiele kieruje do pełnych tekstów publikacji.

Find Articles http://www.findarticles.com/ Wyszukiwarka milionów artykułów ze znanych czasopism – większość dostępna w pełnych tekstach.

Galaxy http://www.galaxy.com Wyszukiwarka i katalog tematyczny źródeł naukowych ze wszystkich dziedzin wiedzy.

Geniusfind http://www.geniusfind.com/ Katalog tematyczny wyszukiwarek

Page 10: Głęboka sieć - LDW

specjalistycznych I baz danych.

Google Scholar http://scholar.google.com Wersja beta specjalistycznej wyszukiwarki Gogle rejestrującej pełne teksty lub abstrakty prac naukowych (artykułów, raportów, książek) ze wszystkich dziedzin wiedzy. Przedstawiciele firmy Google nawiązali także współpracę z wydawcami komercyjnych baz i zasobów elektronicznych, w wyniku czego Google Scholar uzyskał dostęp do tych materiałów, które dla indywidualnych użytkowników sieci WWW są niedostępne, niewidzialne. Wymagają nabycia subskrypcji i chronione są odpowiednim hasłem dostępu. Dzięki temu użytkownicy serwisu mają dostęp do znacznie bogatszych zasobów informacji oraz łatwiej mogą zlokalizować określony materiał. Oczywiście pełne teksty nadal dostępne są tylko subskrybentom, dla użytkowników Google Scholar dostępne są natomiast informacje bibliograficzne oraz abstrakty. Jest to jedno z wymagań stawianych przez Google względem wydawców w podpisanej przez obie strony umowie[3]. Gdy jednak użytkownik pragnie dotrzeć do pełnego tekstu dokumentu, wyszukiwarka, poprzez łącze Library Search wskazuje najbliższą bibliotekę akademicką jako miejsce dostępu bądź sugeruje kupno publikacji bezpośrednio od wydawcy (Weryho, 2005).

GrayLIT Network http://graylit.osti.gov/ Wyszukiwarka raportów technicznych. Przeszukuje kilka różnych baz danych jednocześnie.

HighWire Press http://highwire.stanford.edu/ Repozytorium zawrtości ponad tysiąca czasopism naukowych i ponad 4 tys. artykułów ze 130 wydawnictw uniwersyteckich. OK. 1,5 mln artykułów występuje w wersji pełnotekstowej (bezpłatnie).

INCYWINCY http://www.incywincy.com/ Multiwyszukiwarka zasobów „głębokich” i„płytkich”. Wyszukuje w Open Direktory Project, kilku standardowych wyszukiwarkach i ponad milionie portali tematycznych.

Infomine http://infomine.ucr.edu/ Kolekcja źródeł internetowych (biblioteka wirtualna) ukierunkowana na środowiska akademickie, tworzona przez bibliotekarzy. Rejestruje bazy danych, czasopisma elektroniczne, książki

Page 11: Głęboka sieć - LDW

elektroniczne, biuletyny elektroniczne, listy dyskusyjne, katalogi biblioteczne, artykuły, wykazy naukowców i wiele innych. Możliwość wertowania katalogu wg dziedzin bądź wyszukiwania źródeł wg wielu kryteriów.

Internet Archive http://www.archive.org/index.php Biblioteka internetowa dla naukowców, głównie historyków, oferująca dostęp do kolekcji historycznych w postaci cyfrowej. Zawiera teksty Open-Access, pliki audio, filmy i programy.

Internet Public Library (IPL) http://www.ipl.org/ Publiczna “biblioteka internetowa” tworzona przez University of Michigan School of Information. Kolekcja wiarygodnych żródeł internetowych pogrupowanych w kilku kategoriach. Składa się z: kolekcji linków sprawdznych i zatwierdzanych przez bibliotekarzy oraz usługi informacyjnej typu “ASK A QUESTION”. IPL zawiera ponadto ponad 20 tys. Pełnych tekstów książek.

Intute http://www.intute.ac.uk/ Serwis typu subject gateway tworzony przez uniwersytety brytyjskie, dający dostęp do najlepszych, wyselekcjonowanych i zrecenzowanych przez specjalistów, źródeł sieciowych przeznaczonych dla nauki i edukacji w 4 głównych dziedzinach: nauka i technika, sztuka i nauki humanistyczne, nauki społeczne, medycyna i przyroda. Baza danych zawiera ok. 115 tys. rekordów. Serwis to dawny Resource Discovery Network. (SOSIG, EEVL i inne).

Invisible Web Directory http://www.invisible-web.net/ Prtzebudowywany obecnie catalog zasobów deep Web. Twórcy zapewniają, że wkrótce będzie dostępny.

Librarians’ Internet Index (LII) http://lii.org/ Serwis tworzony przez bibliotekarzy amerykańskich dla potrzeb użytkowników bibliotek publicznych. Rejestruje ponad 20 tys. źródeł internetowych w układzie przedmiotowym. Wyszukiwanie ułatwia interfejs do zadawania pytań według różnych kryteriów formalnych i rzeczowych.

Page 12: Głęboka sieć - LDW

Library Spot http://www.libraryspot.com/ Centrum sieciowych zasobów bibliotecznych i informacyjnych dla nauczycieli, uczniów, bibliotekarzy i innych zainteresowanych. Źródła są selekcjonowane i oceniane przez zespół redaktorów.

Live Search (MSN) – Academic http://search.live.com/ Usługa Live Academic Serach wyszukiwarki MSN, umożliwiająca wyszukiwanie pubikacji naukowych z czasopism i repozytoriów OA. W rezultacie otrzymujemy opisy bibliograficzne ze streszczeniami. Academic Search współpracuje z bibliotekami i instytucjami, aby umożliwić im dostęp do pełnych tekstów publikacji, których są subskrybentami.

MagPortal.com http://magportal.com/ Wyszukiwarka i katalog tematyczny artykułów z gazet, tygodników I czasopism popularno-naukowych.

OAIster http://oaister.umdl.umich.edu/o/oaister/ Projekt University of Michigan, którego celem jest połączenie różnych kolekcji cyfrowych, trudno dostępnych dla wyszukiwarek. Zasoby zawierają obecnie ponad 9,9 mln rekordów z 726 instytucji (w tym kilku polskich). W bazie danych zgromadzone są zasoby bibliotek cyfrowych różnych instytucji, repozytoriów instytucjonalnych i czasopisma elektronicznych.

On-Line Books Page http://digital.library.upenn.edu/books/ Wykaz i wyszukiwarka ponad 25 tys. książek dostępnych w sieci bezpłatnie.

OpenDOAR directory of open access repositories http://www.opendoar.org/

Kontrolowany katalog akademickich repozytoriów Open Access. Możliwość przeglądaniawg kontynentów, wyszukiwania repozytorium wg różnych kryteriów i przeszukiwania zasobów wszystkich repozytoriów.

Picsearch http://www.picsearch.com/ Wyszukiwarka grafik (ponad 1,7 mld obrazków w bazie)

Page 13: Głęboka sieć - LDW

ResourceShelf http://www.resourceshelf.com/ Serwis redagowany pod kierunkiem G. Price’a, informujący codziennie o ciekawych źródłach sieciowych, w tym bazach danych, katalogach, multimediach. Możliwość bezpłatnej prenumeraty newslettera ukazującego się co tydzień.

ROAR Registry of Open Access Repositories

http://roar.eprints.org/index.php

Archiwum ok. 800 repozytoriów OA (w tym też bibliotek cyfrowych). Możliwość przeglądania wg krajów, oprogramowania, typów zawartości oraz przeszukiwania treści repozytoriów wg słów z publikacji, autorów itp..

Science.gov http://www.science.gov/ Katalog i wyszukiwarka zasobów naukowych tworonych przez organizacje rządowe USA.

ScienceResearch.com http://www.scienceresearch.com Portal firmy Deep Web Technologies umożliwiający dostęp do wielu naukowych czasopism i baz danych (częściowo płatnych).

Scirus www.scirus.com Wyszukiwarka naukowa umożlwiająca dostęp do ponad 300 mln stron internetowych, w tym: 1) odnośników do witryn naukowych, uczelnianych, technicznych i medycznych, 2) raportów, artykułów recenzowanych, opisów patentowych, preprintów i czasopism.

Scout Archives http://scout.wisc.edu/Archives/index.php Kontrolowany pod względem jakości catalog zasobów sieciowych I list dyskusyjnych, zawierający 23,174 rekordów ze streszczeniami. Możliwość wyszukiwani oraz przegląfania wg klasyfikacji Biblioteki Kongresu.

Singingfish http://www.singingfish.com Wyszukiwarka plików audio i wideo.

Turbo10 Search Engine http://turbo10.com/ Multiwyszukiwarka przeglądająca domyślnie indeksy: about.com, ask.com, dmoz.org, mirago.co.uk, search.msn.com, webfinder.com, wisenut.com, yahoo.com, yell.com. Możliwość dodania dowolnej wyszukiwarki (w tym deep web) z listy ok. 800, w tym Scirus i inne – opcja Edit My Collections.

Vascoda http://www.vascoda.de/ Portal typu subject gateway tworzony przez Bibliotekę Uniwersytecką w Hannowerze, oferujący dostęp do informacji naukowej z różnych dziedzin, w tym zasobów ukrytych.

Weblens - The Invisible Web http://www.weblens.org/invisible.html “Brama” do tysięcy narzędzi

Page 14: Głęboka sieć - LDW

wyszukiwawczych i źródeł, w tym: wyszukiwarek, katlogów tematycznych, multiwyszukiwarek, wyszukiwarek plików dźwiękowych i graficznych, wyszukiwarek ludzi i firm, informatorów, baz danych miejsc pracy, wyszukiwarek naukowych I innych.

„Szukanie informacji w Sieci - ukryte zasoby WEB”

Literatura

Battelle, J. Szukaj. Jak Google i konkurencja wywołali biznesową i kulturową rewolucję, PWN 2006. Bergman M. K.: The Deep Web: surfacing hidden value [online]. The Journal of Electronic Publishing, vol. 7, issue 1 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.press.umich.edu/jep/07-01/bergman.html . Bugajska M., Chabiński A. Zamiast szukać, znajdź! [online] Chip 2002 nr 2. [dostęp 22.12.2006]. Dostępny w Internecie: http://www.chip.pl/arts/archiwum/n/articlear_18159.html. Calishain, T., Dornfest, R. 100 sposobów na Google, Helion, 2003. Chabiński A. Odmęty Sieci. [online] Chip 2002 nr 2 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.chip.pl/arts/archiwum/n/articlear_18160.html. Cohen, L. The Deep Web. [online] University at Albany, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.internettutorials.net/deepweb.html. Deep web. [online] Wikipedia, The Free Encyclopedia, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://en.wikipedia.org/w/index.php?title=Deep_web&oldid=95397547. Derfert-Wolf L. Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways [online]. Biuletyn EBIB 2004/6 [dostęp 22.12.2006]. Dostępny w Internecie: http://ebib.oss.wroc.pl/2004/57/derfert.php . Dworniczak M. Google potrafi (prawie) wszystko! Magazyn Internet, kwiecień 2005, s. 66—69. Gulli, A., Signorini, A. The Indexable Web is More than 11.5 billion pages. [online] 2005 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf. Heliński, M., Mazurek, C., Parkoła, T., Werla, M. Biblioteka cyfrowa jako otwarte, internetowe repozytorium publikacji. W:III konferencja: Internet w bibliotekach. Zasoby elektroniczne: podaż i popyt. [online]  Wrocław, 12-14 grudnia 2005 roku. http://www.ebib.info/publikacje/matkonf/iwb3/artykul.php?f Lewandowski, D. Web searching, search enginges and Information Retrieval. [online] Preprint, 2005 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/isu2005.php. Lewandowski, D., Mayr, P. Exploring the Academic Invisible Web. [online] Preprint, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/LHT_Preprint.pdf. Lyman, P., Hal R. V. How Much Information. [online] 2003 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.sims.berkeley.edu/how-much-info-2003. Łamek A. Ukryty Internet. Magazyn Internet 2002 nr 7. s. 58-60. Mirecka, E. Ocena jakości i przydatności znalezionych informacji. [online] Eduseek [dostęp 22.12.2006]. Dostępny w Internecie:http://eduseek.interklasa.pl/artykuly/artykul/ida/3874/idc/1/. Mróz D. Sieć dla eksperta. [online] CHIP nr 10/2005 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.chip.pl/arts/archiwum/n/articlear_150306.html. Pamuła-Cieślak N. Typologia zasobów Ukrytego Internetu. Przegląd Biblioteczny 2006 z. 2, s. 153-164. Pamuła-Cieślak N. Zjawisko Ukrytego Internetu – rola bibliotek w upowszechnianiu jego zasobów [online] 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://bg.p.lodz.pl/konferencja2006/materialy/Natalia_Pamula.pdf. Sherman, C. Search for the Invisible Web. [online] Guardian Unlimited 6.9.2001 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.guardian.co.uk/online/story/0,3605,547140,00.html.

Page 15: Głęboka sieć - LDW

Sherman, C., Price, G. The Invisible Web: Uncovering Information Sources Search Engines Can't See. Medford, NJ: Information Today, 2001. Szumilas, D. Kop głębiej! Google to nie wszystko. Magazyn Internet - sierpień 2005, s. 60-63. Weryho M. Stań na ramionach gigantów, czyli Google Scholar. [online] EBIB 2005, nr 2 [dostęp 22.12.2006]. Dostępny w Internecie: http://ebib.oss.wroc.pl/2005/63/weryho.php. Zimnicki M. Kto szuka nie błądzi. Magazyn Internet, styczeń 2006, s. 24-31.

1 Zasoby baz publikacji pracowników tworzonych przez biblioteki np. w Expertusie, ALEPH nie są indeksowane przez Google

2 Np. robot Gooru - jeśli pierwsza strona serwisu jest w całości wykonana we Flash'u i do kolejnych podstron nie prowadzi żaden link w formacie

HTML robot nie znajdzie pozostałych stron w serwisie.

3 Np. IEEE Xplore

4 Open Archives Initiative Protocol for Metadata Harvesting. Zob. więcej na stronie Libra: http://dlibra.psnc.pl/index.php?

option=com_content&task=view&id=62&Itemid=62&lang=pl