Download - (1)Projekt: Odkazový vyhľadávač
Vyhľadávanie informácií 1
(1)Projekt: Odkazový vyhľadávač
• Laclavík: Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.
Vyhľadávanie informácií 26.09.2008 2
(2) Projekt: Distance Search
• Laclavík: Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.Využitie geografických údajov alebo ontológie geografických údajov slovenska v OWL – Bratislava, využite lucene a nutch, demonštrácia na
vybranej skupine stránok– využitie ontológie Slovenska, Sesame– Google Maps– Extrakcia informácií – ulice, PSC, GPS súradnice
Vyhľadávanie informácií 26.09.2008 3
(3) Projekt: Triedenie a zoraďovanie
• Šeleng: Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie.– OPIC, PageRank, HITS– Vytvorenie vlastného grafu odkazov na
objekty v dokumentoch
Vyhľadávanie informácií 26.09.2008 4
(4) Projekt: Indexovanie PDF a Word dokumentov
• Laclavík: Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.PDF je možné konvertovať na linuxe pomocou pdf2text zahrnuté štandardne v distribúciách. RTF pomocou rthca Word .doc súbory je možné konvertovať pomocou Catdoc. Takisto v Jave je možné použiť PDFBox.org aPOI alebo TextMining.org na MS Word – Odporúčané Lucene alebo jeho porty do iných jazykov. Vziať do
úvahy názvy adresárov, meno súboru, dátum vytvorenia a metadáta dokumentov. Identifikovať nadpisy a inak indexovať
– web verzia, vziať do úvahy text odkazov an PDF a word dokumenty spolu s okolím textu
(5) Projekt: Textové operácie
• Slovenský Lematizér alebo Stemmer– Egothor, Stempel, JULŠ, Tvaroslovník, ...– Snowball => java => pre lucene
• Google approach pre slovenský stemmer– Zistiť čo najviac experimentovať len napísať a
vyhodnotiť
• Overenie na množine slov. Môže sa vytvoriť a overiť aj pre špecifické typy slov napr. geografické názvy, názvy ulíc alebo priezviská
(6) Projekt: Sociálne siete
• OpenSocial API– ?Prispôsobenie výsledkov vyhľadávania?– Vlastný nápad kde bude extrakcia metadát
alebo vyhľadávanie a kombinácia so sociálnou sieťou.
– E.g. vyhľadávanie vo fotkách friendov– Gadget pre orkut, hi5 ...
(7) Projekt: Sociálna sieť a email
• Extrakcia sociálnej siete z emailu. Indexovanie a zoradenie podľa počtu interakcií pri fultextovom vyhľadávaní.
• Extrakcia viacdimenzionálnej sociálnej siete– Ľudia, projekty, geografické lokality, kontaktné údaje– Práca so sieťou v IBM Gallaxy– Iná navigácia v sieti– Zobrazenie 5-10 najčastejších termov v interakciách
• Tvorba grafu socialnej siete, Xobni, IBM Gallaxy• Spojenie semantickeho modelu a Socialnej siete• Semanticky search• Tools: Lucene, Regexes, Ontea, see Xobni, IBM Gallaxy
(8) Projekt: Email search
• Indexovanie a vyhľadávanie emailov– Acoma + lucene + jednoduché
JSP/Servlet/GoogleAPI rozhranie pre vyhľadávanie
– Spracovanie mailov pomocou JavaMail library– Zameranie na attachmenty, text alebo
utrieďovaniu funkciu– Overenie! E.g. gmail versus vytvorená
implementácia• Source: mailing listy, vlastné emaily, mbox,
gmail
(9) Projekt: Extrakcia informácií
• Geografické dáta• Kontaktné info (email, tel)• Osoby • Firmy a organizácie• Udalosti – kalendár, Doodle
• Zdrojové dáta– Emaily– Správy– Web
• Regulárne výrazy• GATE, Ontea, IBM Gallaxy• Gazzeters
(10) Projekt: Slovenské domény
• Spracovanie slovenských domén• www.sk-nic.sk/domeny.txt• Zoradit podla poctu vlastnikov, registratorov• Aj zmeny v registratoroch, vlastnikoch ...• Spracovanie historie – stiahnute subory za urcite obdobie.• Web aplikácia s výstupom
• A) Pocty domen podla registratorov, vlastnikov, podla DNS serverov a pod.
B) Casove zmeny tychto poctov v urcitom casovom obdobi na zaklade registratora, vlastnika alebo domeny:Priklad 1: - ID: XXXX-0001 - date_from: 2008-05-01, date_to: 2008-09-31 - Registrator: 34, 56 (change: 22) - Owner: 3, 5 (change: 2)
Priklad 2: - Domain: xxyy.sk - from 2008-01-05, to 2008-03-06, regid: XXXX-0001, owner: YYYY-0005, DNS1: dns1.sk, DNS2: dns2.sk - from ...
(11) Projekt: Prieskum Trhu
• Extrakcia informacii o produktoch alebo sluzbach z webu (ako Froogle)
• Porovnanie podla ceny napr.• Vybrat konkretnu domenu.
– Napr. Webhosting, cena, veľkosť priestoru, počet emailov, poskytnuté služby – PHP, IMAP, MySQL, PostgreSQL ....
(12) Projekt: Informácie o firmách
• Extrakcia informácií• Sídlo, webstránka, obchodný register,• Kontaktné údaje, ....• oblasť činnosti
(13) Projekt: Informácie o ľuďoch
• Extrakcia informácií• Sídlo, webstránka, sociálne siete,• Kontaktné údaje, ....• Zamestnanie.• Graf vzťahov k objektom (firmy, ľudia,
geografické miesta ...)
(14) Projekt: Logs and GeoIP
• Spracovanie log suborov pomocou extrakcie informacii.
• Zistit co najviac udajov.• E.g. IP => Geo, Krajiny• Užívatelia - rozdelenie
• Typy logov: – mailserver, web server,
DNS server– POP3 server – IMAP
• Výstup tabuľky alebo RRD database, grafy
A) Web server logy
i) Web traffic podla domeny a krajiny kde sa IP nachadza: Priklad: - domain: xxx.com, date: 2008-09-25 - sk: 250348, pl: 34897874, ..., de: 3233
B) Mail server logyi) Vytiahnut cely SMTP tok emailu. Priklad: FROM: [email protected], TO: [email protected] - queueid: received from, received by - queueid: received from, received by - ... - queued as queueid2 - queueid2: ... - ... - queueid5: delivered
ii) Mail traffic podla domeny a krajiny kde sa IP nachadza (aj poslane aj prijate emaily): Priklad: - domain: xxx.com, date: 2008-09-25 - prijate: sk: 250348, pl: 34897874, ..., de: 3233 - odoslane: sk: 8749322, pl: 33444, ..., de: 43369
iii) Mail Traffic priebezne spracovat pomocou RRDTreba upravit skript mailgraph (http://mailgraph.schweikert.ch/) tak, aby namiesto poctu prijatych/odoslanych emailov generoval traffic prijatej a odchadzajucej SMTP komunikacie. Info vytahovat priebezne z logov. Pouzit RRDtool (http://oss.oetiker.ch/rrdtool/) nastroj - zapisovat do RRD databazy, z ktorej sa nasledne moze vygenerovat graf.
(15) Projekt: MapReduce
• Hadoop, HDFS, HTable
• Hocaký problém z IR alebo IE portovať na Hadoop
• Rozbehanie Nutch pod hadoop• Extrakcia informácií large scale (e.g. regex)• Spracovanie logov• Použitie HTable
• Testovanie na Hadoop Clusteri na UISAV
(16) Projekt Crawling
• Focused Crawler– Sťahovanie emailov z mailinglistov– Sťahovanie iných zdrojov na základe textu
alebo URL odkazu
• Sťahovač ktorý rozozná či sa stránka dostatočne líši a podľa toho sa rozhodne– Ide o ignorovanie stránok s rovnakým
obsahom iba zmena v zoradení, print, email ...
(17) Projekt – Crawl and Search
• Sťahuje iba images alebo PDF alebo word• Indexuje iba podľa textu odkazu a odkazu