(1)projekt: odkazový vyhľadávač

17
Vyhľadávanie informácií 1 (1)Projekt: Odkazový vyhľadávač • Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.

Upload: kyna

Post on 05-Jan-2016

33 views

Category:

Documents


4 download

DESCRIPTION

(1)Projekt: Odkazový vyhľadávač. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: (1)Projekt: Odkazový vyhľadávač

Vyhľadávanie informácií 1

(1)Projekt: Odkazový vyhľadávač

• Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.

Page 2: (1)Projekt: Odkazový vyhľadávač

Vyhľadávanie informácií 26.09.2008 2

(2) Projekt: Distance Search

• Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL – Bratislava, využite lucene a nutch, demonštrácia na

vybranej skupine stránok– využitie ontológie Slovenska, Sesame– Google Maps– Extrakcia informácií – ulice, PSC, GPS súradnice

Page 3: (1)Projekt: Odkazový vyhľadávač

Vyhľadávanie informácií 26.09.2008 3

(3) Projekt: Triedenie a zoraďovanie

• Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie.– OPIC, PageRank, HITS– Vytvorenie vlastného grafu odkazov na

objekty v dokumentoch

Page 4: (1)Projekt: Odkazový vyhľadávač

Vyhľadávanie informácií 26.09.2008 4

(4) Projekt:  Indexovanie PDF a Word dokumentov

• Laclavík: Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word – Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do

úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať

– web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu

Page 5: (1)Projekt: Odkazový vyhľadávač

(5) Projekt: Textové operácie

• Slovenský Lematizér alebo Stemmer– Egothor, Stempel, JULŠ, Tvaroslovník, ...– Snowball => java => pre lucene

• Google approach pre slovenský stemmer– Zistiť čo najviac experimentovať len napísať a

vyhodnotiť

• Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská

Page 6: (1)Projekt: Odkazový vyhľadávač

(6) Projekt: Sociálne siete

• OpenSocial API– ?Prispôsobenie výsledkov vyhľadávania?– Vlastný nápad kde bude extrakcia metadát

alebo vyhľadávanie a kombinácia so sociálnou sieťou.

– E.g. vyhľadávanie vo fotkách friendov– Gadget pre orkut, hi5 ...

Page 7: (1)Projekt: Odkazový vyhľadávač

(7) Projekt: Sociálna sieť a email

• Extrakcia sociálnej siete z emailu. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní.

• Extrakcia viacdimenzionálnej sociálnej siete– Ľudia, projekty, geografické lokality, kontaktné údaje– Práca so sieťou v IBM Gallaxy– Iná navigácia v sieti– Zobrazenie 5-10 najčastejších termov v interakciách

• Tvorba grafu socialnej siete, Xobni, IBM Gallaxy• Spojenie semantickeho modelu a Socialnej siete• Semanticky search• Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy

Page 8: (1)Projekt: Odkazový vyhľadávač

(8) Projekt: Email search

• Indexovanie a vyhľadávanie emailov– Acoma + lucene + jednoduché

JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie

– Spracovanie mailov pomocou JavaMail library– Zameranie na attachmenty, text alebo

utrieďovaniu funkciu– Overenie! E.g. gmail versus vytvorená

implementácia• Source: mailing listy, vlastné emaily, mbox,

gmail

Page 9: (1)Projekt: Odkazový vyhľadávač

(9) Projekt: Extrakcia informácií

• Geografické dáta• Kontaktné info (email, tel)• Osoby • Firmy a organizácie• Udalosti – kalendár, Doodle

• Zdrojové dáta– Emaily– Správy– Web

• Regulárne výrazy• GATE, Ontea, IBM Gallaxy• Gazzeters

Page 10: (1)Projekt: Odkazový vyhľadávač

(10) Projekt: Slovenské domény

• Spracovanie slovenských domén• www.sk-nic.sk/domeny.txt• Zoradit podla poctu vlastnikov, registratorov• Aj zmeny v registratoroch, vlastnikoch ...• Spracovanie historie – stiahnute subory za urcite obdobie.• Web aplikácia s výstupom

• A) Pocty domen podla registratorov, vlastnikov, podla DNS serverov a pod.

B) Casove zmeny tychto poctov v urcitom casovom obdobi na zaklade registratora, vlastnika alebo domeny:Priklad 1: - ID: XXXX-0001 - date_from: 2008-05-01, date_to: 2008-09-31 - Registrator: 34, 56 (change: 22) - Owner: 3, 5 (change: 2)

Priklad 2: - Domain: xxyy.sk - from 2008-01-05, to 2008-03-06, regid: XXXX-0001, owner: YYYY-0005, DNS1: dns1.sk, DNS2: dns2.sk - from ...

Page 11: (1)Projekt: Odkazový vyhľadávač

(11) Projekt: Prieskum Trhu

• Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle)

• Porovnanie podla ceny napr.• Vybrat konkretnu domenu.

– Napr. Webhosting, cena, veľkosť priestoru, počet emailov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL ....

Page 12: (1)Projekt: Odkazový vyhľadávač

(12) Projekt: Informácie o firmách

• Extrakcia informácií• Sídlo, webstránka, obchodný register,• Kontaktné údaje, ....• oblasť činnosti

Page 13: (1)Projekt: Odkazový vyhľadávač

(13) Projekt: Informácie o ľuďoch

• Extrakcia informácií• Sídlo, webstránka, sociálne siete,• Kontaktné údaje, ....• Zamestnanie.• Graf vzťahov k objektom (firmy, ľudia,

geografické miesta ...)

Page 14: (1)Projekt: Odkazový vyhľadávač

(14) Projekt: Logs and GeoIP

• Spracovanie log suborov pomocou extrakcie informacii.

• Zistit co najviac udajov.• E.g. IP => Geo, Krajiny• Užívatelia - rozdelenie

• Typy logov: – mailserver, web server,

DNS server– POP3 server – IMAP

• Výstup tabuľky alebo RRD database, grafy

A) Web server logy

i) Web traffic podla domeny a krajiny kde sa IP nachadza:    Priklad:    - domain: xxx.com, date: 2008-09-25    - sk: 250348, pl: 34897874, ..., de: 3233

B) Mail server logyi) Vytiahnut cely SMTP tok emailu.     Priklad:    FROM: [email protected], TO: [email protected]    - queueid: received from, received by    - queueid: received from, received by    - ...    - queued as queueid2    - queueid2: ...    - ...    - queueid5: delivered

ii) Mail traffic podla domeny a krajiny kde sa IP nachadza (aj poslane aj prijate emaily):    Priklad:    - domain: xxx.com, date: 2008-09-25    - prijate: sk: 250348, pl: 34897874, ..., de: 3233    - odoslane: sk: 8749322, pl: 33444, ..., de: 43369

iii) Mail Traffic priebezne spracovat pomocou RRDTreba upravit skript mailgraph (http://mailgraph.schweikert.ch/) tak, aby namiesto poctu prijatych/odoslanych emailov generoval traffic prijatej a odchadzajucej SMTP komunikacie. Info vytahovat priebezne z logov. Pouzit RRDtool (http://oss.oetiker.ch/rrdtool/) nastroj - zapisovat do RRD databazy, z ktorej sa nasledne moze vygenerovat graf.

Page 15: (1)Projekt: Odkazový vyhľadávač

(15) Projekt: MapReduce

• Hadoop, HDFS, HTable

• Hocaký problém z IR alebo IE portovať na Hadoop

• Rozbehanie Nutch pod hadoop• Extrakcia informácií large scale (e.g. regex)• Spracovanie logov• Použitie HTable

• Testovanie na Hadoop Clusteri na UISAV

Page 16: (1)Projekt: Odkazový vyhľadávač

(16) Projekt Crawling

• Focused Crawler– Sťahovanie emailov z mailinglistov– Sťahovanie iných zdrojov na základe textu

alebo URL odkazu

• Sťahovač ktorý rozozná či sa stránka dostatočne líši a podľa toho sa rozhodne– Ide o ignorovanie stránok s rovnakým

obsahom iba zmena v zoradení, print, email ...

Page 17: (1)Projekt: Odkazový vyhľadávač

(17) Projekt – Crawl and Search

• Sťahuje iba images alebo PDF alebo word• Indexuje iba podľa textu odkazu a odkazu