deep web – suchen wir was man finden könnte? · pdf filecrawlers can't fill...
TRANSCRIPT
![Page 2: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/2.jpg)
1 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Die Bedeutung des Deep Web
Die Größe des Deep Web
Strategien der Erschließung
Fazit
Gliederung
![Page 3: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/3.jpg)
2 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Die Bedeutung des Deep Web
Die Größe des Deep Web
Strategien der Erschließung
Fazit
Gliederung
![Page 4: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/4.jpg)
3 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Surface Web vs. Invisible Web
Definitionen des Invisible/Deep Web
• “Text pages, files, or other often high-quality authoritative information available via the WorldWide Web that general-purpose search engines cannot, due to technical limitations, or will not,due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001).
• “The deep Web - those pages do not exist until they are created dynamically as the result of aspecific search“ (Bergman 2001).
![Page 5: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/5.jpg)
4 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Bereiche des Web
(Stock 2003)
![Page 6: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/6.jpg)
5 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Inhalte des Deep/Invisible Web
Customized content is irrelevant for mostsearchers; fear of "spider traps"
Dynamically generated content
Ephemeral data; huge quantities; rapidly changinginformation
Real-time content
Crawlers can't fill out required fields in interactiveforms
Content in relational databases
Technically indexable, but usually ignored,primarily for business or policy reasons
Pages consisting primarily of PDF orPostscript, Flash, Shockwave, Executables(programs) or Compressed files (.zip, .tar,etc.)
Insufficient text for the search engine to"understand" what the page is about
Pages consisting primarily of images, audio, orvideo
No links for crawlers to find the pageDisconnected page
Why It's InvisibleType of Invisible Web Content
(Sherman/Price 2001)
![Page 7: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/7.jpg)
6 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Inhalte des Deep/Invisible Web
• Disconnected page– Problem bleibt grundsätzlich bestehen, im Ausmaß aber zu vernachlässigen.
• Pages consisting primarily of images, audio, or video– Problem besteht weiterhin, schwierig auch für Bilder-Suchmaschinen.
• Pages consisting primarily of PDF or Postscript, Flash, Shockwave, Executables(programs) or Compressed files (.zip, .tar, etc.)
– teils gelöst, Flash weiterhin problematisch– Problem bei Programmen, .zip, usw. vernachlässigbar.
• Content in relational databases– wichtigstes Thema, Lösungsansätze vorhanden, keine umfassende Lösung.
• Real-time content– Problem besteht weiterhin, Lösungsansätze vorhanden (Bsp. Einbindung von News).
• Dynamically generated content– Problem weitgehend gelöst.
![Page 8: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/8.jpg)
7 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Bedeutung des Themas für Suchmaschinen/Portale
Nutzer wünschen...
• Vollständigkeit– Quellen, die von Suchmaschinen nicht erschlossen werden können.– Quellen, deren vollständige Erschließung nicht/schwer möglich ist.
• Aktualität– Quellen können nicht schnell genug erschlossen werden.
• Recherche über einen einzigen Einstiegspunkt– Nutzer wollen über eine Rechercheoberfläche suchen.
![Page 9: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/9.jpg)
8 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Beispiele für Deep-Web-Datenbanken
• Lexis-Nexis (kostenpflichtig)– Wirtschafts- und Rechtsinformationen.– ca. 32.000 Quellen (Zeitungen, Zeitschriften, usw.).– mehr als fünf Milliarden Dokumente.
• Europäisches Patentamt (kostenlos)– mehr als 50 Millionen Patente im Volltext.
• POLDOK - Die Politik der 80er Jahre (kostenlos)– ca. 40.000 Literaturnachweise.
• HörDat (kostenlos)– Informationen zu ca. 30.000 Hörspielen.
![Page 10: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/10.jpg)
9 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Die Bedeutung des Deep Web
Die Größe des Deep Web
Strategien der Erschließung
Fazit
Gliederung
![Page 11: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/11.jpg)
10 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Die Größe des Deep Web
• Größe des Deep Web nach Bergman (2001): 550 Milliarden Dokumente; mehr als 500 malso groß als das Surface Web.
– Berechnung: Durchschnittliche Größe der bekannten (großen) IW-Datenbanken * geschätzteGesamtzahl der IW-Datenbanken.
– Problem: Verteilung der Datenbank-Größen stark linksschief (Median: 4.950 Dokumente je Datenbank).– Wenige Datenbanken enthalten viele Dokumente (>100 Millionen), viele Datenbanken nur einige
Tausend.– Tatsächliche Größe des IW dürfte bei <100 Milliarden Dokumenten liegen (Lewandowski&Mayr, 2006).
• Gesamtgröße aller Datenbanken im Gale Directory of Databases: 18,92 MilliardenDokumente.
– Verzeichnis von ca. 16.000 Datenbanken.– Manche der in Bergmans Liste aufgeführten Datenbanken fehlen.
![Page 12: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/12.jpg)
11 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Größenverteilung der Deep-Web-Datenbanken (Bergman Top 60)
(Lewandowski/Mayr 2006)
![Page 13: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/13.jpg)
12 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Größenverteilung in Dialog
(Lewandowski/Mayr 2006)
![Page 14: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/14.jpg)
13 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Inhalte des Deep Web
Basis:Top60 größte IW-Datenbanken aus Bergman (2001)Größenanteile auf Basis der Dateigrößen; nicht Zahl der Dokumente!
(Lewandowski/Mayr 2006)
![Page 15: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/15.jpg)
14 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Fazit: Größe des Deep Web
• Bergmans Hochrechnung ist stark übertrieben.
• Auf der Grundlage von Bergmans Top60 lässt sich keine gute Schätzung ableiten.
• Die Hochrechung von Gale ist wahrscheinlich zu niedrig.
• Im Gale Directory sind auch Datenbanken enthalten, die nicht über das Web erreichbar sind.Andererseits fehlen Web-Datenbanken.
![Page 16: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/16.jpg)
15 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Die Bedeutung des Deep Web
Die Größe des Deep Web
Strategien der Erschließung
Fazit
Gliederung
![Page 17: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/17.jpg)
16 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Drei Strategien
• Verwandlung von Deep-Web-Inhalten in Surface-Web-Inhalte
• Spezielle Deep-Web-Suchmaschinen
• Einbindung von Deep-Web-Inhalten über Shortcuts
![Page 18: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/18.jpg)
17 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Drei Strategien
• Verwandlung von Deep-Web-Inhalten in Surface-Web-Inhalte– Datenbank-Einträge werden in HTML umgesetzt.– Vorteil: Aufnahme in den regulären Index der Suchmaschinen.– Nachteil: Keine garantierte Vollständigkeit, Suchmöglichkeit über Felder geht verloren.– Beispiel: Internet Movie Database (imdb.com)
![Page 19: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/19.jpg)
18 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 20: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/20.jpg)
19 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 21: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/21.jpg)
20 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Drei Strategien
• Spezielle Deep-Web-Suchmaschinen– Mehrere DW-Datenbanken können gleichzeitig durchsucht werden.– Vorteil: Auswahl der Datenbanken, Kombination der Datenbanken.– Nachteil: Beschränkte Anzahl von Datenbanken, Suchmöglichkeiten gehen (teils) verloren.– Beispiele: Yahoo Search Subscriptions, Google News Archive Search, Turbo10.com
![Page 22: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/22.jpg)
21 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 23: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/23.jpg)
22 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 24: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/24.jpg)
23 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 25: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/25.jpg)
24 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 26: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/26.jpg)
25 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 27: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/27.jpg)
26 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 28: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/28.jpg)
27 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Drei Strategien
• Einbindung von Deep-Web-Inhalten über Shortcuts– Anzeige von Deep-Web-Quellen/Treffern oberhalb der regulären Trefferlisten in
Suchmaschinen/Portalen.– Datenbank-Inhalte– Real time content
– Vorteil: Einbindung in die reguläre Suchmaschinen/ins Portal, relativ leicht zuimplementieren.
– Nachteil: Auswahl der geeigneten Quelle aus der Suchanfrage kann schwierig sein.
![Page 29: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/29.jpg)
28 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 30: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/30.jpg)
29 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 31: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/31.jpg)
30 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 32: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/32.jpg)
31 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
![Page 33: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/33.jpg)
32 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Die Bedeutung des Deep Web
Die Größe des Deep Web
Strategien der Erschließung
Fazit
Gliederung
![Page 34: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/34.jpg)
33 | Dr. Dirk Lewandowski: Deep Web 23. Februar 2007
Fazit
• Die Einbindung von Deep-Web-Inhalten kann den Nutzer schnell zu hochwertigenErgebnissen leiten.
• Deep-Web-Inhalte können helfen, das eigene Produkt gegenüber anderen Suchlösungenzu positionieren.
• Entscheidend ist die Auswahl und geschickte Einbindung der Quellen.– Gary Price als „Director of Online Information Resources“ bei Ask.com.
![Page 35: Deep Web – Suchen wir was man finden könnte? · PDF fileCrawlers can't fill out required fields in interactive forms Content in relational databases Technically indexable, ... (Bsp](https://reader034.vdocuments.net/reader034/viewer/2022042801/5a79bb147f8b9a9e0c8c41e5/html5/thumbnails/35.jpg)
Vielen Dank für IhreAufmerksamkeit.
www.durchdenken.de/lewandowski
Buch: Web Information Retrievalonline kostenlos; gedruckt: 25€
Artikel: Exploring the Academic Invisible Web(gemeinsam mit Philipp Mayr)Library Hi Tech 24(2006)4, 529-539.Preprint online.
E-Mail: [email protected]