introduzione estrazione di informazioni dal web prof. paola velardi
TRANSCRIPT
Introduzione
Estrazione di Informazioni dal Web
Prof. Paola Velardi
Argomento del corso• Metodi per estrarre informazioni di interesse da archivi
documentali– Come viene espresso l’interesse: mediante una richiesta (query) la cui
complessità varia:• Parole-chiave (web information retrieval)• Un testo in LN (qual’ è la città più grande della Florida?)• Una richiesta vocale..• Un’immagine o documento (query by example)
– Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nell’intero web.
– Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica..– Cosa si estrae: i documenti (probabilmente) di interesse, una risposta
in LN, una lista di fatti rilevanti
Information Retrieval
Query by example
Query
risposte
Question Answering
Information Extraction foodscience.com-Job2
JobTitle: Ice Cream Guru
Employer: foodscience.com
JobCategory: Travel/Hospitality
JobFunction: Food Services
JobLocation: Upper Midwest
ContactPhone: 800-488-2611
DateExtracted: January 8, 2001
Source: www.foodscience.com/jobs_midwest.html
OtherCompanyJobs: foodscience.com-Job1
Criteri di classificazione dei sistemi di estrazione di
informazioniIn base a:
• Query: keyword, frase, categoria di interesse, domanda..
• Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web
• Oggetto della ricerca: testi, immagini, multimedia..• Risposta: una lista di documenti, una risposta in
linguaggio naturale, un database di “fatti” rilevanti
Syllabus del corso• Information Retrieval (IR)
– Ricerca: archivio locale– Query: lista di keywords– Oggetto: testi– Risposta: elenco ordinato di testi
• Web Information retrieval– Ricerca: web– Come IR
• Information Extraction– Ricerca: web o archivio locale– Query: fatti di interesse (es.
“offerte di lavoro in informatica”)– Oggetto: testi o media– Risposta: un database
• Question Answering– Ricerca: web o archivio locale– Query: domanda in linguaggio
naturale– Oggetto:testi– Risposta: risposta in LN
• Multimedia Retrieval– Ricerca: web o archivio locale– Query: voce, immagine, suono..– Oggetto: filmati, immagini,
musica, registrazioni vocali– Risposta: elenco ordinato di
oggetti multimediali
Prerequisiti
• Strutture dati, algoritmi• Algebra (vettori, matrici)• Probabilità • ..se avete seguito Apprendimento
Automatico è un po’ meglio.. Ma non essenziale
Materiale• http://twiki.di.uniroma1.it/twiki/view/Estrinfo
/WebHome– Lucidi– Articoli e approfondimenti– Siti di interesse
• Modern Information Retrieval www.amazon.com/Modern-Information-Retrieval-Ricardo-Baeza-Yates/dp/020139829X
• Un libro on-line: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
ESAME• Un esercizio su Lucene (open-source text search engine
in Java) a metà corso • Un progetto a fine corso (quest’anno si utilizzerà la
piattaforma open-source di IE “GATE”), applicazioni (opzioni):– Analizzare opinioni su social networks– Estrarre informazioni da databases con trame di film
• Una prova scritta a fine corso• Chi non fa l’esame a fine corso deve fare un orale su
appuntamento (ma progetto e prova Lucene sono obbligatori)