lsi vs. wordnet ontology for dimension reduction in information retrieval

21
Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, [email protected] Václav Snášel, [email protected] Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004

Upload: temira

Post on 10-Jan-2016

32 views

Category:

Documents


1 download

DESCRIPTION

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval. Pavel Moravec , pavel.moravec _at_ vsb.cz Michal Kolovrat , [email protected] Václav Snášel , [email protected] Katedra informatiky VŠB-Technická univerzita Ostrava. Dateso 2004. Obsah. Vektorový model - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

LSI vs. WordNet Ontology for Dimension Reduction

in Information Retrieval

Pavel Moravec, pavel.moravec_at_vsb.czMichal Kolovrat, [email protected]

Václav Snášel, [email protected]

Katedra informatikyVŠB-Technická univerzita Ostrava

Dateso 2004

Page 2: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Obsah

Vektorový model Singulární rozklad Indexování latentní sémantiky WordNet Využití WordNetu pro redukci dimenze Experimentální výsledky Shrnutí

Page 3: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Vektorový model

Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vah termů matice termů v dokumentech A

D1 D2 D3 … Dm

T1 0.1 0 0 … 0

T2 0 0.15 0 … 0

T3 0 0 0.3 … 0

…  … … … … …

Tn 0.2 0 0 … 0.2

Page 4: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Vyhledávání ve vekt. modelu

Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra.

Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat.

Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat

Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné

Page 5: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Redukce dimenze matice A

Na matici A lze použít postupy známé z lineární algebry (zejména rozklady)

Výpočet vlastních čísel kovarianční matice (PCA) Singulární rozklad matice

(SVD) ULV rozklad matice Náhodnou projekci vektorů (RP) atd.

Page 6: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Singulární rozklad

n 1

Matici A lze rozložit singulárním rozkladem na součin matic U VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a je diagonální matice obsahující singulární čísla

Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A

Page 7: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

k-redukovaný singulární rozklad

Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů

Malé k a řídká matice A => metoda Lanczos Eckart-Young: Mezi všemi maticemi C hodnosti

nejvýše k minimalizuje Ak hodnotu ||A-C||F

Page 8: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Indexování latentní sémantiky (LSI) a skrytá sémantika

LSI – k-redukovaný singulární rozklad matice termů v dokumentech

Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu

Matice dokumentů Dk= Vk k (resp. Dk’ = Vk)

Matice termů Tk= Uk k (resp. Tk’ = Uk)

Dotaz v red. dimenzi qk= UkT q (resp. qk’ = k

-1 UkT

q)

Page 9: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Klady a zápory LSI

Klady+ Snížení dimenze vektorů+ Omezení vlivu „prokletí dimenzionality“+ Nalezení skrytých vztahů v datech+ Až na určení redukované dimenze lze provádět

zcela automaticky Zápory

- Časová složitost výpočtu- Problematické přidávání dokumentů a termů

Page 10: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Dvoufázový algoritmus výpočtu LSI (Papadimitriou)

1. Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl)

2. Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi

Euklidovské vzdálenosti budou dostatečně zachovány

Frobeniova norma aproximace matice vůči LSIk je

kde je koeficient změny vzdálenosti z J-L lemmatu.

Page 11: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

WordNet

Tezaurus, slovník synonym V ontologii jsou uloženy synsety - sady synonym

pro podstatná jména, přídavná jména, slovesa a příslovce

Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum

Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index

Page 12: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Ukázka konceptů ve WordNetu

biology, biological science

=> life science, bioscience

=> natural science

=> science, scientific discipline

=> discipline, subject, subject area, … , branch of knowledge

=> knowledge domain, knowledge base

=> content, cognitive content, mental object

=> cognition, knowledge, noesis

=> psychological feature

Page 13: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Využití WordNetu místo LSI

Proč? Místo termů využijeme přímo synsety Známe vztahy mezi synsety – nemusíme počítat

rozklad, snadnější vkládání nových termů a dokumentů

Jak? Převedeme termy na synsety a na jejich základě

spočteme váhy termů v nadřazených konceptech Použijeme jen nejvýznamnější koncepty nebo ty

na nejvyšších úrovních

Page 14: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Tvorba konceptů

1. Započteme váhy termů do synsetů2. Váhu synsetu započteme do váhy hypernyma na

dané úrovni (předchozí; 1. – l-tá)3. Je-li potřeba, vybereme jen k nejvýznamnějších

synsetů4. Vytvoříme projekční matici termů na synsety5. Promítneme matici termů v dokumentech do

redukované dimenze6. Je-li redukovaná dimenze příliš vysoká, využijeme

dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici

Page 15: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Klady a zápory metody

Klady+ Snížení dimenze vektorů+ Využití synonym, matice dokumentů stále dosti řídká+ Snadné přidávání nových dokumentů a termů+ Zvýšení úplnosti + Přesnost a úplnost při použití dvoufázového

algoritmu by měly být vyšší než u náhodných projekcí

Zápory- Jen podstatná jména a slovesa, obsažená ve

WordNetu- Vyšší dimenze než u LSI

Page 16: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Experimenty – testovací data

Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89)

Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi)- relevantní dokumenty- nerelevantní dokumenty- ostatní dokumenty (pravděpodobně nerelevantní)

Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý)

Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech

Page 17: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Experimenty – provedené testy

Klasické LSI do dimenzí 100 a 200 Náhodná projekce do dimenze 1000

Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu

LSI do dimenze 200 dvoustupňovým algoritmem náhodná projekce do dimenze 1000 redukce 4 nejvyšších úrovní synsetů WordNetu

Page 18: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Experimenty – čas a velikost

Page 19: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Experimenty – přesnost a úplnost

 

Page 20: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Závěr

Lepší výsledky než náhodné projekce Srovnatelné s LSI, lze použít tam kde by byl výpočet

LSI nemožný vzhledem k velikosti kolekce Vylepšuje úplnost (na úkor přesnosti) Možnost převodu dokumentů v různých jazycích

pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů

Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy

Možnost vyzkoušet jinou ontologii

Page 21: LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

Literatura1. D. Achlioptas. Database-friendly random projections. In

Symposium on Principles of Database Systems, 2001.2. E. Bingham and H. Mannila. Random projection in

dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001.

3. M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996.

4. C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998.

5. K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003