ontology-focused crawling of documents and relational metadata diplomvortrag marc ehrig...

22
Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Upload: jirgen-gerhardt

Post on 05-Apr-2015

105 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Ontology-Focused Crawling of Documents and Relational

Metadata

Diplomvortrag

Marc Ehrig

Forschungszentrum Informatik

22.01.2002

Page 2: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 2

Übersicht

1. Situation

2. Grundlagen des fokussierten Crawlings

3. Architektur

4. Implementierung

5. Evaluation

6. Zusammenfassung

Page 3: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 3

1. Situation

• Entwickeltes weltweites Datennetz

• Viele Dokumente• Finden, Extrahieren

und Kombinieren von Informationen

Page 4: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 4

2. Grundlagen des fokussierten Crawlings

• Crawling:– Laden eines Dokuments

– Extraktion der Links

– Nächstes Dokument laden

• Fokussiertes Crawling– Intelligente fokussierte Auswahl des nächsten Schritts

?

?

?

?

Page 5: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 5

Prozess des ontologiefokussierten Crawlings

• Ontologie und Metadaten– Definitionen, Initialisierungen

– Metadatenextraktion

– Ausgabe, Evolution

• Crawler– Laden der Dokumente

– Überprüfung der Relevanz

– Festlegung der Reihenfolge der nächsten Dokumente

Ontology andMetadata

Management

FocusedCrawling ofDocuments

and Metadata

Page 6: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 6

Wissensmodell

• Ontologie• Metadaten• Lexikon KAON/Lexicon

lexical entryvalue

lexicon:airline

"airline" "carrier"

references

lexicon:Lufthansa

"Lufthansa"

kaon

:va

l

kaon:val

ka:

val

T

T

SS

kaon

ref

kaon:refLufthansa

root

class property

airline

airplane

person

flies

pilot

owns

A340 J. Smith

S: subclassOfR: rangeD: domainT: instanceOf

T T

S

STT

T

T

R D

R

T

DT

RDFScheme

ontology

metadata

S

Page 7: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 7

Linkauswahl

• Inhaltsbasiert • Strukturbasiert– Forward Link Count

– Backward Link Count

– Location Metric

– Page Rank

Webdokument Modell

ASCII-Text ASCII-Text (Keywords)

Graph Graph

Beliebig Beliebig

Page 8: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 8

Welcher Dokumenteninhalt ist noch relevant für die Suche?

• Unterscheidung zwischen Zieldokumenten und Pfaddokumenten

• Überlegungen zu engem und weitem Fokus

Page 9: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 9

3. Systemarchitektur

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

Page 10: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 10

Ontologie- und Metadatenmanagement

UserInter-action

Ontology andMetadataManagement

ComputationPreprocessing

InstiantiatedOntology &MetadataStructure

ResultPresentation and

OntologyEvolvement

managing ontology and metadatastructures

inspect

RDF-metadata Maintenance

links textmeta-data

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

Page 11: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 11

Web Crawler

Crawling

Crawler 1

URL Buffer(ranked)

RetrievedWeb DocumentsBuffer (ranked

by URL)

Crawler 2Crawler 3Crawler 4Crawler 5

Filter againstdoubles and

wrong file-types

URLs (rated)documents

Internet

Preprocessing Computation

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

Page 12: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 12

Vorverarbeitung

Ontology andMetadataManagement

Preprocessing

textprocessor /natural language

processing:tags, stopwords,

stemming, parsing

Free-TextLookup

id ex-traction

AnchortextLookup

documents

matching

id ex-traction

instantiatedontology &metadatastructure

instantiatedontology &metadatastructure

lexicon

metadata list<sentence>

lan

gu

age

chec

k

file

ty

pe

chec

k an

dco

nve

rsio

n

rdf

me

tad

ata

sep

arat

or

lin

kse

par

ato

r

Web Crawler

Computation

documentrelevance

linkrelevance

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

Page 13: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 13

Relevanzmengen

Single Taxonomic Relational

Dvehicle transports passenger

airplane

militaryairplane

commercialairplane

fliesflight

owned by

airline

Lufthansa A340 B747

S subClassOfD domainR rangeT instanceOf

R

S

S

D

RS

T

RT

D

T

Total

person

Marc Ehrig

T

S

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

Page 14: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 14

airbus = 2

lufthansa = 1

airplane = 1

airbus = 1

lufthansa = 1

airplane = 4

airbu_

lufthansa

airplane

vers_

airbus = 1

lufthansa = 1

airplane = 0

airbus = 1

lufthansa = 1

airplane = 2

#airbus

#lufthansa

score = 6

Relevanzberechnung

text count rating

scoremetadata count rating

1. le

xico

n lo

okup 3. s

um

mar

izat

ion

1. v

alid

atio

n

ontology ontology

ontology ontology

Lufthansa just received itsnewest Airbus A340 from thebase in Toulouse. AirbusIndustries added some newfeatures to this version of the

airplane.

<f:Class rdf:about="&c;airbus"><c:airline rdf:about="lufthansa">

<c:ownsrdf:resource="airbus123"/></c:airline>

2. r

elev

ance

rela

tion

al,

sum

2. r

elev

ance

rela

tion

al,

sum

Beispiel:

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

Page 15: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 15

Benutzer

• Eingabe– Initialisierung der Wissensbasis– Definition der Suche– Crawling Strategie– Start URLs

• Ausgabe– Besten Dokumente– URL-Liste– Metadaten– Wortvorschläge

UserInteraction

Ontology andMetadataManagement

ComputationPreprocessing

Crawling

user

Page 16: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 16

4. Implementierung

CATERPYL

Page 17: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 17

5. Evaluation

• Maße– Discovery Rate:

#Minimum/#Schritte– Harvest Rate:

#Relevant/#Gelesen

• Daten– University.kaon

– Airplane.kaon

– Tourism.kaon

• Strategien– Single für Dokument

– Breadth-First, Keyword, Single, Relational und Total für Pfad

• Szenarien– CIIR

– Prof. Deshmukh

– Boeing 747

– Hotel

Page 18: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 18

Beispiel 1: Center for Intelligent Information Retrieval

• Institut an der University of Massachusetts

• Strategien Taxonomic, Relational und Total deutlich überlegen

0

0,2

0,4

0,6

0,8

1Discovery

Rate

Page 19: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 19

Beispiel 2: Hotel Waterfront

• Hotel am Wasser• Total besser als alle

anderen• Keyword auf der x-

Achse

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0 200 400 600 800 1000 1200 1400

keyword taxonomic relational total

HarvestRate

Schritte

Page 20: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 20

6. Zusammenfassung

• Ontologie und Metadaten– Definitionen, Initialisierungen– Metadatenextraktion– Ergebnisausgabe,

Fortentwicklung

• Crawler– Laden der Dokumente– Überprüfung der Relevanz

mittels Relevanzmengen– Festlegung der Reihenfolge der

nächsten Dokumente

Ontology andMetadata

Management

FocusedCrawling ofDocuments

and Metadata

Page 21: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 21

Ergebnis

• Fokussiertes Crawling besser als unfokussiertes

• Verbesserung durch Nutzung eines möglichst großen Wissensmodells

• Fokus muss genau austariert sein

• Strategie weiter verfolgen

Page 22: Ontology-Focused Crawling of Documents and Relational Metadata Diplomvortrag Marc Ehrig Forschungszentrum Informatik 22.01.2002

Diplomvortrag Marc Ehrig, FZI 22.01.2002Ontology-Focused Crawling of Documents and Relational Metadata 22

leer