1 text mining governare linformation overload federico neri ([email protected]) lexical systems lab...

27
2 Information Information Overload Overload Migliaia di documenti vengono Migliaia di documenti vengono prodotti ogni prodotti ogni giorno giorno : : 80% 80% testuali testuali 20% 20% numerici numerici Intro Intro Text Mining Text Mining STALKER/OML STALKER/OML Analisi Analisi dati dati Analisi Analisi risultati risultati [email protected] [email protected]

Upload: gino-alessi

Post on 01-May-2015

218 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

2

InformationInformation OverloadOverload

Migliaia di documenti vengono prodotti ogniMigliaia di documenti vengono prodotti ognigiornogiorno: :

80%80% testuali testuali

20%20% numerici numerici

IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

Page 2: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

3

Information OverloadInformation Overload

HTML, XML, PDF, Word, TXT, … HTML, XML, PDF, Word, TXT, …

Inglese, Francese, Tedesco, Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… Italiano, Arabo, Cinese, Russo…

Internet/Intranet, DB, ...Internet/Intranet, DB, ...

IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

Page 3: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

4

IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Information OverloadInformation Overload

Brevetti, Pubblicazioni scientificheBrevetti, Pubblicazioni scientifiche

StampaStampaTelefonateTelefonate

Percezione e Conoscenza della Percezione e Conoscenza della realtà che ci circondarealtà che ci circonda

WEBWEBE-mailE-mail

[email protected]@synthema.it

Page 4: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

5

Che cosa è il Text MiningChe cosa è il Text Mining

Insieme di tecniche linguistico-matematiche perInsieme di tecniche linguistico-matematiche per Analizzare fonti testualiAnalizzare fonti testuali Strutturare e classificare automaticamente il Strutturare e classificare automaticamente il contenutocontenuto Trovare l’informazione nascostaTrovare l’informazione nascosta

Supporto nel Supporto nel Processo DecisionaleProcesso Decisionale

IntroIntroText MiningText Mining

STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

Page 5: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

6

IntroIntroText MiningText Mining

STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Che cosa non è il Text MiningChe cosa non è il Text Mining

Non è analisi puntuale di un testo, ma Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un analisi quantitativa e qualitativa di un insieme esteso di testi.insieme esteso di testi.

Non è una metodologia di archiviazione Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione.priori. Non è routing dell’informazione.

[email protected]@synthema.it

Page 6: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

7

Informazione Informazione come Supporto nel come Supporto nel

Processo DecisionaleProcesso DecisionaleText Mining perText Mining per OttenereOttenere unauna visione di insieme degli argomentivisione di insieme degli argomenti Accedere all’informazione su base tematicaAccedere all’informazione su base tematica Trovare l’informazione nascostaTrovare l’informazione nascosta

Trovare l’informazione d’interesse

IntroIntroText MiningText Mining

STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

Page 7: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

8

IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML

Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Come gestire migliaia di Come gestire migliaia di documenti?documenti?

Banche dati

Internet

Database

[email protected]@synthema.it

Page 8: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

9

IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML

Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Come gestire migliaia di Come gestire migliaia di documenti? Innovazione onlinedocumenti? Innovazione online

Banche dati

Banca dati

SEARCHBOX+TWIDEXPERTSEARCHBOX+TWIDEXPERT(Analisi linguistica, statistica)(Analisi linguistica, statistica)

SEARCHBOX+TWIDEXPERTSEARCHBOX+TWIDEXPERT(Analisi linguistica, statistica)(Analisi linguistica, statistica)

Modelli Dizionari Grammatiche

Back-endBack-end

Clustering engineClustering engineClustering engineClustering engine

Search engineSearch engineSearch engineSearch engine

Front-endFront-end

Ufficio2Ufficio2

Ufficio1Ufficio1

Intranet

STALKER/OML serverSTALKER/OML server

InternetUfficio3Ufficio3

[email protected]@synthema.it

Page 9: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

10

IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML

Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Architettura (STALKER)Architettura (STALKER)

[email protected]@synthema.it

Banche dati

Banca dati

CrawlerCrawlerCrawlerCrawler

Modelli Dizionari Grammatiche

Clustering engineClustering engineClustering engineClustering engine

Search engineSearch engineSearch engineSearch engine

Stalker serverStalker serverInternet

Lexical Lexical pluginplugin

Lexical Lexical pluginplugin

TWID TWID pluginpluginTWID TWID pluginplugin

TWIDExpertTWIDExpertTWIDExpertTWIDExpert

Reverse Reverse indexesindexes

Reverse Reverse indexesindexes

SearchBoSearchBoxx

TWIDExpertTWIDExpert

Page 10: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

11

Il processo produttivoIl processo produttivo

Scelta e preparazione dei datiScelta e preparazione dei dati

Analisi dei dati e storageAnalisi dei dati e storage

Ricerca e Analisi dei risultatiRicerca e Analisi dei risultati

Monitoraggio, consultazione e Monitoraggio, consultazione e

approfondimento approfondimento

Back-endBack-end

Front-endFront-end

IntroIntro Text MiningText MiningSTALKER/STALKER/

OMLOML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

Page 11: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

12

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Scelta:Scelta: Preparazione:Preparazione:

Scelta e Preparazione dati Scelta e Preparazione dati (BackEnd)(BackEnd)

[email protected]@synthema.it

Page 12: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

13

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

(brevetti, pubblicazioni, e-mail, …)(brevetti, pubblicazioni, e-mail, …)

Distinguere “Distinguere “ciò che è dettociò che è detto” da ” da ““come viene dettocome viene detto””

trovare convergenze nel significatotrovare convergenze nel significato

cogliere l’informazione da classificarecogliere l’informazione da classificare

Analisi Lessicale perAnalisi Lessicale per

[email protected]@synthema.it

Page 13: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

14

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Analisi Morfo-sintattica e/o Analisi Morfo-sintattica e/o TerminologicaTerminologica

Analisi SemanticaAnalisi Semantica

rimuovere Ambiguità rimuovere Ambiguità

raggruppare Varianti Graficheraggruppare Varianti Grafiche

trovare Sinonimitrovare Sinonimi

Identicazione Identicazione automatica automatica

dei descrittori dei descrittori per ciascun per ciascun documentodocumento

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

(Analisi lessicale)(Analisi lessicale)

Analisi LogicaAnalisi Logica

espandere Acronimiespandere Acronimi

estrarre Espressioniestrarre Espressioni ComposteComposte

[email protected]@synthema.it

Page 14: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

15

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Analisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguità

DETTIDETTI DETTODETTO: nome, masc. plur: nome, masc. plur.

DETTAREDETTARE: verbo, ind. pres. 2a pers. sing.: verbo, ind. pres. 2a pers. sing.

DAREDARE: : verbo, ind. pass. rem. 1a pers. sing.verbo, ind. pass. rem. 1a pers. sing.

DIREDIRE: verbo, part. pass. masc. plur.: verbo, part. pass. masc. plur.

TRATTOTRATTO TRATTO, TRATTARETRATTO, TRATTARE

LemmaLemmaLemmaLemma invio, inviati, invia invio, inviati, invia inviare inviare [[verbverb]] capi stazione capi stazione capo stazione capo stazione [[nounnoun]]

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

(Analisi lessicale - Morfo-sintattica)(Analisi lessicale - Morfo-sintattica)

[email protected]@synthema.it

Page 15: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

16

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

(Analisi lessicale - Morfo-sintattica)(Analisi lessicale - Morfo-sintattica)

[email protected]@synthema.it

Page 16: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

17

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

raggruppare Varianti Graficheraggruppare Varianti Grafiche

trovare Sinonimitrovare Sinonimi ( $, dollaro, biglietto verde, … ) ( $, dollaro, biglietto verde, … )

( ANP ( ANP Autorità Nazionale Autorità Nazionale Palestinese )Palestinese )

( visto, veduto )( visto, veduto )

( carta di credito, ( carta di credito, Ministro degli Esteri ) Ministro degli Esteri )

trovare convergenza nel significatotrovare convergenza nel significato

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

(Analisi lessicale - Semantica)(Analisi lessicale - Semantica)

estrarre Espressioniestrarre Espressioni ComposteComposte

espandere Acronimiespandere Acronimi

[email protected]@synthema.it

Page 17: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

18

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

[email protected]@synthema.it

non solo lemmi, non solo lemmi, ma soprattutto terminologiema soprattutto terminologie

Multi-lingual

Dictionaries

Multilingual Teminology

matcher

Lemmatizer/

Teminology detector

Mono-lingual

Dictionaries,

Grammars

Identificazione della Identificazione della lingualingua

Parsing, lemmatizzazioneParsing, lemmatizzazione

Estrazione terminologicaEstrazione terminologica

Allineamento multilinguaAllineamento multilingua

Indicizzazione terminologicaIndicizzazione terminologica

Ricerca e clustering

Indexer

Documents DB

Page 18: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

19

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Trovare l’informazione rilevanteTrovare l’informazione rilevante

[email protected]@synthema.it

Analisi Morfologica + pattern matchingAnalisi Morfologica + pattern matching((n+base(n)n+base(n) credit card, fuel cellcredit card, fuel cell, … ), … )

( ( base(n)+prep+n+prep+nbase(n)+prep+n+prep+n arma di distruzione di massaarma di distruzione di massa, ... ), ... )

Analisi StatisticaAnalisi Statistica• Soglia di FrequenzaSoglia di Frequenza• Soglia di SignificativitàSoglia di Significatività

((n > n > 11, , 11 = f(SW-MW,nTot,…) ) = f(SW-MW,nTot,…) )

( ( log(log(((11/n) * /n) * (nTot/nDoc) * f(POS)*...) > (nTot/nDoc) * f(POS)*...) > 22 ) )

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

(Analisi lessicale - Morfo-statistica)(Analisi lessicale - Morfo-statistica)

Page 19: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

20

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

paraffina paraffina [[NOUNNOUN]]

guantoguanto[[NOUNNOUN]]

guanto di paraffina guanto di paraffina [[NOUNNOUN]]

rilevare rilevare [[VERBVERB]]

tracciatraccia[[NOUNNOUN]]

polvere da sparopolvere da sparo[[NOUNNOUN]]

polverepolvere[[NOUNNOUN]]

non solo lemmi, ma terminologienon solo lemmi, ma terminologie

Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)

Page 20: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

21

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Analisi StatisticaAnalisi Statistica

[email protected]@synthema.it

Documents DB

Lemmatizer/

Teminology detector

Mono-lingual

Dictionaries,

Grammars

Multi-lingual

Dictionaries

Indexer

Multilingual Teminology

matcher

Identificazione della lingua

Parsing, lemmatizzazione

Estrazione terminologica

Allineamento multilingua

Indicizzazione terminologica

Ricerca e clusteringRicerca e clustering

Page 21: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

22

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

[email protected]@synthema.it

Analisi StatisticaAnalisi Statistica

Page 22: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

23

Concatenazione fra Concatenazione fra classi correlateclassi correlate

Concatenazione fra Concatenazione fra classi correlateclassi correlate

Raggruppamento in Raggruppamento in classi affini per contenutoclassi affini per contenuto

Raggruppamento in Raggruppamento in classi affini per contenutoclassi affini per contenuto

Ricerca e Classificazione Ricerca e Classificazione

IntroIntro Text MiningText MiningSTALKER/STALKER/

OMLOML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati

Ricerca per chiavi Ricerca per chiavi ed accesso puntualeed accesso puntualeRicerca per chiavi Ricerca per chiavi

ed accesso puntualeed accesso puntuale

[email protected]@synthema.it

Page 23: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

24

Analisi dei risultatiAnalisi dei risultati

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati AnalisiAnalisi risultatirisultati

MappeMappe Liste ordinateListe ordinate

[email protected]@synthema.it

Page 24: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

25

Consultare documenti per temaConsultare documenti per temaConsultare documenti per temaConsultare documenti per tema

Trovare relazioni nascosteTrovare relazioni nascosteTrovare relazioni nascosteTrovare relazioni nascoste

Scoperta di risultati Scoperta di risultati inaspettatiinaspettati

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati AnalisiAnalisi risultatirisultati

[email protected]@synthema.it

Page 25: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

26

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati NewNew

I nuovi sviluppi: motore di I nuovi sviluppi: motore di ricerca in linguaggio naturale ricerca in linguaggio naturale

multilinguamultilingua

[email protected]@synthema.it

Page 26: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

27

I nuovi sviluppi: document I nuovi sviluppi: document analyseranalyser

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati NewNew

[email protected]@synthema.it

Page 27: 1 Text Mining governare lInformation Overload Federico Neri (neri@synthema.it) LEXICAL SYSTEMS LAB Intro Text Mining Text Mining STALKER/OML Analisi dati

28

Indirizzi utiliIndirizzi utili

[email protected]@synthema.it

IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati InfoInfo

http://www.synthema.it/textmininghttp://www.synthema.it/textmining

http:// www.spi-rit.nethttp:// www.spi-rit.net

Trovare l’informazioneTrovare l’informazione

[email protected]@synthema.it