cluster- projekt präsentiert von dominik henn & torben pastuch am seminar für...

Cluster- Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelber Datum: 28.01.2002

Upload: gertrude-still

Post on 05-Apr-2015

106 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Cluster-Cluster-

Projekt

Präsentiert von Dominik Henn & Torben Pastucham Seminar für Computerlinguistik der Uni Heidelberg

Datum: 28.01.2002

Was ist Cluster-X ?Was ist Cluster-X ?

ist eine Windows-Anwendung

Cluster-X...

fasst thematisch ähnliche Dokumente zu Clustern zusammen

verwendet hierzu den Oh!™ Algorithmus(Oh!™ = Orphan Hunting! & Topic Merging)

ermöglicht die Ausweitung einer bool´schen Suche

Page 3: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

EntwicklungEntwicklung

Cluster-X wurde in C++ unter MS-Windows entwickeltEs wurde Wert auf kurze Laufzeiten gelegt

Verwendete Bibliotheken:

- MFC für die GUI- selbst entwickelte Matrix- & Vektorklassen

Page 4: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

Die ArchitekturDie Architektur

Korpus IRPreProcess

DocTermMatrix

TermList

DocumentListIRCluster

Cluster

IRBoolSearch

SearchResults ClusterView

DisplayEngine

Page 5: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

Die TechnikDie Technik

Oh!™ basiert auf dem k-Means AlgorithmusDieser wird durch verschiedene Elemente erweitert

TopicMerging OrphanHunting

k-Means

Oh!™

Page 6: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

k-Meansk-Means

Erzeuge k ZV

Ordne DV zufälligden ZV zu

Berechne neue ZV

Ordne DV den jeweilsähnlichsten ZV zu

Neuzuordnung?Ja

Termination

Nein

ZV = Zentroidvektor

DV = Dokumentvektor

2 2

1 1

( , )

i ii

n n

i ii i

d cd c

sim d cd c

d c

FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF

FFFFFFFFFFFFFF

Page 7: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

Orphan HuntingOrphan Hunting

Topic MergingTopic Merging

Oh!™-AlgorithmusOh!™-AlgorithmusErzeuge n ZV

(n = Anz. der Dok.)

Ordne jedem ZV genaueinen DV zu

Berechne neue ZV

Ordne DV den jeweilsähnlichsten ZV zu

Neuzuordnung?Ja

TerminationNein

ZV mit nureinem zug. DV?

Ordne DV dem nächstähnlichen ZV zu

Lösche dennun leeren ZV

Übertrage DV inähnlichen ZV

Lösche den nunleeren ZV

Exisitieren2 ähnliche ZV?

Nein

Diese beiden Vorgänge werden nur ausgeführt, wenn eine

festgesetzte Ähnlichkeit

überschritten wird

Page 8: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

DatenstrukturenDatenstrukturen

Für Cluster-X wurden 3 angepasste Datentypen verwendet1) CVector<TYPE>

(Hilfsklasse für Operationen mit Vektoren)

2) CMatrix<TYPE>(Speicherung der Zentroiden)

3) CSparseDataMatrix<TYPE>(Speicherung der Dokument-Term-Matrix)

Page 9: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

SparseDataMatrixSparseDataMatrix

CSparseDataMatrix<TYPE> ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte)

Originalmatrix

0 0 0 0 0 0 2 0

3 1 0 0 0 0 0 0

0 0 0 1 0 0 0 0

0 0 4 0 0 0 0 0

1 7 0 2 0

2 1 2 3 1

1 4 0 1 0

1 3 0 4 0

SparseDataMatrix

Beispielersparniss:Dokument-Term-Matrix (Bibel-Korpus)Originalmatrix: >10.000 KByte SparseDataMatrix: 880 KByte

Page 10: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

Nun zur Praxis...Nun zur Praxis...

1) 1) Cluster-X starten

Ihre Optionen:Ihre Optionen:

2) 2) Zigarettenpause

http://www.gizeh-online.de/

Page 11: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

Probleme & ToDoProbleme & ToDo

Extrem hohe Speicherbelastung Temporäre Berechnung der ZV Latent Semantic Indexing (SVD)

Korpusabhängige Idealparameterevtl. mashine learning Methoden (user feedback)

Parameterabhängige Laufzeiten (worst case: O(n²))

Lösung N/A (algorithmusinhärent)

Page 12: Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg Datum: 28.01.2002

The End...The End...

Dozentin: Priv.-Doz. Dr. Karin Haenelt

Ort: Seminar für Computerlinguistik / Uni Heidelberg

Veranstaltung: Information Retrieval (WS2001/02)

Einführung in die Computerlinguistik Morphologiehs/teach/18w/pdf/04morphflat.pdf · Einfuhrung in die Computerlinguistik Morphologie Hinrich Schutze Center for Information and Language

HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide [email protected] Hinweis:DiesesSkriptumfasstnurdenStoﬀ

Historia języka w XXI wieku Stan i perspektywywydawnictwo.us.edu.pl/sites/wydawnictwo.us.edu.pl/... · Magdalena Pastuch: Metoda czy metodologia? Współczesne potrzeby historii

Einführung in die Computerlinguistik Pragmatikhs/teach/18w/pdf/10prag.pdf · Einfuhrung in die Computerlinguistik Pragmatik Hinrich Schutze Center for Information and Language Processing

Einführung in die Computerlinguistik SemantikEinführung in die Computerlinguistik Semantik Alex Fraser / Robert Zangenfeind Center for Information and Language Processing 2019-11-20

Orientierungseinheit Phonetik und Phonologie - Computerlinguistik

Einführung in die Computerlinguistik - coli.uni- · PDF fileVorlesung “Einführung in die CL” 2009/2010 © M. Pinkal UdS Computerlinguistik Technisches Zur Vorlesung gehören:

Einführung in die Computerlinguistik I

Modulhandbuch Bachelorstudiengang: Computerlinguistik · Modul: P2 Einf uhrung in die Computerlinguistik Zuordnung zum Studiengang Bachelorstudiengang: Computerlinguistik Zugeordnete

Vorlesung im WiSe 2018/19 (M-GSW-09) · Computerlinguistik I Vorlesung im WiSe 2018/19 (M-GSW-09) Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische

Einfuhrung in die Computerlinguistik - GitHub Pages · 2018-08-14 · Dr. Benjamin Roth (CIS LMU Munchen) Einfuhrung in die Computerlinguistik 30 / 69. Syntax Strukturbildung von

Einf hrung in die Computerlinguistik Semantik I · 2015. 10. 23. · Lexikalische Funktionen Paraphrasen Kompositionalität & Phraseme Einführung in die Computerlinguistik Semantik

ruoord.kharkivosvita.net.uaruoord.kharkivosvita.net.ua/2020/kosht/0611150.pdfHaKa.3 MiHicTepcTBa cþiHaHCiB YKpaïHH 28.01.2002 57 (y penaKuiï Haxa3Y MiHicTepcTBa YKpaïHH 04.12.2015

Einf hrung in die Computerlinguistik Pragmatikhs/teach/15w/intro/pdf/11pragm.pdfPragmatics Grice Speech acts Einführung in die Computerlinguistik Pragmatik Hinrich Schütze & Robert

Tagungsband / 12. Workshop 'Multimedia in Bildung … · ( zur Verfügung gestellt. ... (Computerlinguistik, Professor Dr. Manfred Pinkal;

NLP -Analyse des Wissensrohstoffs Text · Vorlesung: NLP - Analyse des Wissensrohstoffs Text Folie: 11 Gegenstand der Computerlinguistik Gegenstand der Computerlinguistik sind Formalismen,

LINGUISTIK • COMPUTERLINGUISTIK • PSYCHOLINGUISTIK · Psycholinguistik (Lehrbeauftragte) Hoelter, Martin, Dr. GB 3/148 22461 Linguistik & Computerlinguistik Kauffeldt, Johanna,

IASK: Computerlinguistik Block; 10:00 - 17:00; 31.03.2008 ... fileSommer 2008 1 IASK: Computerlinguistik Zusätzliche Lehrveranstaltungen und weitere Informationen werden durch Aushang

Computerlinguistik II / Sprachtechnologie Vorlesung im SS 2010 (M-GSW-10) Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische

Einführung in die Computerlinguistik Grundkonzeptefraser/intro_2019_WS/pdf/02termiflat.pdf · Einführung in die Computerlinguistik Grundkonzepte AlexFraser/RobertZangenfeind Center

Linguistik mit Schwerpunkt Computerlinguistik ... · Nebenfach/Anwendungsfach Linguistik mit Schwerpunkt Computerlinguistik / Sprachtechnologie Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik

Bachelor of Science - Computerlinguistik …Bachelor of Science - Computerlinguistik - Prüfungsversion Wintersemester 2017/18 72635 S - Phonetics I Gruppe Art Tag Zeit Rhythmus Veranstaltungsort

Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign

GIS-Seminar WS 01/02 Themenblock 10 : Mobile GIS ArcPad und ArcSurvey Vortrag: Antonia Seibt Betreuer: Professor Dr. Lutz Plümer 28.01.2002

Computerlinguistik II / · PDF file– 14.330 Verben – 13.8500 Adjektive • 93.250 Synsets – 71.500 Nomen – 11.030 Verben

Named Entity Recognition - Institut f¼r Computerlinguistik

Grundlagen der Computerlinguistik - Springer978-3-642-57306-4/1.pdf · Die Deutsche Bibliothek - CIP-Einheitsaufnahme Hausser, Roland: Grundlagen der Computerlinguistik: Mensch-Maschine-Kommunikation

ISAEL PASTUCH - uniaodavitoria.pr.gov.bruniaodavitoria.pr.gov.br/wp-content/uploads/2018/06/04-Memorial... · 2.0 serviÇos preliminares Ficarão a cargo exclusivo da Contratada todas

Infoveranstaltung WS 2017 - linguistik.phil.fau.de · Was ist„LinguistischeInformatik“? Korpuslinguistik≠ Computerlinguistik? bzw. Sprachtechnologie (Natural Language Processing,

uCozcheschool29.at.ua/Files/koshtoris29.pdf · 28.01.2002 57 (y peaaxqiï Hatca3Y MiHicTepcTBa cþiHaHciB YKpaïHV1 04.12.2015 11 18) 3aTBePA}KeHMÿt y CYMi: ... CaAKOM,HTePHaTOM

Einführung Computerlinguistik Pragmatik - LMU …hs/teach/13w/intro/pdf/11pragm.pdfPragmatics Grice Speech acts Einführung Computerlinguistik Pragmatik Hinrich Schütze & Robert

Präsentiert von Torben Pastuch am Seminar für Computerlinguistik der Uni Heidelberg

Kapitel 1. Einleitung: Computerlinguistik und Prolog für... · zentralen Probleme und Fragestellungen der theoretischen Computerlinguistik nachzuvollziehen und in der Praxis umszusetzen

Einf hrung in die Computerlinguistik berblickhs/teach/15w/intro/pdf/01uberblick.pdf · Was ist Computerlinguistik? Deﬁnition Computational linguistics is the scientiﬁc study of

CL10-Folien12 Dialogsysteme web€¦ · Vorlesung “Einführung in die CL” 2010/2011 © M. Pinkal UdS Computerlinguistik Einführung in die Computerlinguistik Dialogsysteme WS