![Page 1: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/1.jpg)
Corpora e linguistica computazionale
Cristina Bosco
Corso di Informatica applicata alla comunicazione multimediale
2013-2014
![Page 2: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/2.jpg)
Elaborare il linguaggio naturale
Il problema della comprensione del linguaggio naturale è molto complesso per un computer.
Lo è anche per gli esseri umani, in cui l’apprendimento della lingua madre è un processo lungo e articolato.
![Page 3: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/3.jpg)
Elaborare il linguaggio naturale
Da un lato, esiste il problema di dotare il computer di tutta la conoscenza necessaria (acquisendola e rappresentandola).
Assumendo che un linguaggio sia trattabile da un computer che contiene la conoscenza posseduta da un parlante di quella lingua.
![Page 4: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/4.jpg)
Elaborare il linguaggio naturale
Dall’altro lato, esiste il problema di dotare il computer di algoritmi adeguati.
Assumendo che le operazioni da fare sull’input siano ben definibili.
![Page 5: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/5.jpg)
SoluzioniSi divide il problema generale della
comprensione del linguaggio in sottoproblemi, quindi:
• si adottano delle astrazioni per limitare a determinati livelli la comprensione
• si eseguono dei task in cui si ottiene una comprensione parziale
![Page 6: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/6.jpg)
Soluzioni?L’utilizzo delle astrazioni e
la scomposizione in subtask portano vantaggi
sia nell’acquisizione/rappresentazione della conoscenza
sia nella costruzione degli algoritmi.
Ma non risolvono del tutto il problema.
![Page 7: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/7.jpg)
Soluzioni?
Utilizzare le astrazioni nell’acquisizione/rappresentazione
della conoscenzasignifica rappresentare il linguaggio
con formalismi adatti ai vari livelli distinti.
Ad es. definire chiaramente quali sono le informazioni morfologiche e
quali quelle sintattiche.
![Page 8: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/8.jpg)
Soluzioni?
testo
rappresentazione morfologica del testo
rappresentazionesintattica del testo
![Page 9: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/9.jpg)
Soluzioni?
Utilizzare le astrazioni nella costruzione degli algoritmi significa
dividere il trattamento del linguaggio in livelli diversi.
Ad es. definire algoritmi che trattano solo la morfologia ed altri che
trattano solo la sintassi.
![Page 10: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/10.jpg)
Soluzioni?
testo
rappresentazione morfologica del testo
rappresentazionesintattica del testo
PoS tagger
Parser
![Page 11: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/11.jpg)
Problemi
Anche assumendo le astrazioni, tuttavia il linguaggio resta difficile da trattare perchè:
• è ricco di ambiguità• è usato in modo non corretto• è in continua espansione
![Page 12: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/12.jpg)
Problemi
Le diverse soluzioni adottate per acquisire/rappresentare il linguaggio e per costruire gli algoritmi tengono conto dei problemi intrinseci al linguaggio.
![Page 13: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/13.jpg)
Astrazioni e rappresentazioni
In questo corso ci focalizziamo sull’acquisizione e rappresentazione della conoscenza pertinente a 2 livelli di astrazione, fondamentali per la maggior parte dei task:
• morfologia• sintassi
![Page 14: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/14.jpg)
Acquisizione della conoscenza
Un sistema che tratta il linguaggio deve avere a disposizione la conoscenza linguistica necessaria.
Ma come si mette la conoscenza dentro un sistema?
![Page 15: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/15.jpg)
Acquisizione della conoscenza
Esempio: che conoscenza occorre a un PoS tagger (analizzatore morfologico) per prendere in input
“il cane dorme in giardino”e restituire in output “il ART, cane NOUN, dorme VERB,
in PREP, giardino NOUN” ?
![Page 16: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/16.jpg)
Acquisizione della conoscenza
output = il ART, cane NOUN, dorme VERB, in PREP, giardino NOUN
conoscenza = ART (il), NOUN (cane, giardino),
VERB (dorme), PREP (in)
![Page 17: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/17.jpg)
Acquisizione della conoscenza
Esempio: che conoscenza occorre a un parser (analizzatore sintattico) per prendere in input
“il cane dorme in giardino”e restituire in output “[S [NP (il – cane)] [VP (dorme) [PP (in –
giardino)]]]” ?
![Page 18: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/18.jpg)
Acquisizione della conoscenza
output = [S [NP (il – cane)] [VP (dorme) [PP (in – giardino)]]]
conoscenza = art + noun = NPverb + PP = VPprep + noun = PP NP + VP = S
![Page 19: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/19.jpg)
Acquisizione della conoscenza
Dove si trova la conoscenza?Le soluzioni sono 2:1) conoscenza dentro il sistema –
rule-based2) conoscenza dentro un corpus
di dati linguistici – corpus-based
![Page 20: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/20.jpg)
Corpus versus rule-based
grammatica
lessico
…
SISTEMA
![Page 21: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/21.jpg)
Corpus versus rule-based
grammatica
lessico
…
CORPUS
SISTEMA
apprendimento
![Page 22: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/22.jpg)
Corpus versus rule-based
In entrambi i casi si presuppone che il linguaggio sia governato da regole (da conoscere per trattarlo)MA:• nei sistemi corpus-based le regole sono apprese, nei rule-based sono date• nei sistemi corpus-based le regole sono probabilistiche, nei rule-based sono deterministiche
![Page 23: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/23.jpg)
Corpus versus rule-based
Se le regole variano, ad es. da una lingua all’altra, da un genere testuale ad un altro, devono essere riscritte in un sistema rule-based, ma non in uno corpus-based.
![Page 24: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/24.jpg)
Approccio corpus-based
• Utilizzato dai linguisti dalla fine dell’800 e tutt’ora molto diffuso
• Consiste nell’apprendere dal linguaggio le regole ed irregolarità del linguaggio
![Page 25: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/25.jpg)
Approccio corpus-based
• Si basa sull’idea che le co-occorrenze sono fonti importanti di informazioni sulla lingua
• Si ispira all’idea di apprendimento linguistico umano, tramite esposizione a esempi e basato su criteri statistici
![Page 26: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/26.jpg)
Approccio corpus-based
Esempio: Nell’analisi sintattica (parsing), di
fronte all’ambiguità e quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate
![Page 27: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/27.jpg)
Approccio corpus-based
L’approccio corpus-based assume che buona parte del successo del linguaggio umano nella comunicazione dipende dall’abilità che gli esseri umani hanno nel gestire ambiguità ed imprecisione in modo efficiente.
![Page 28: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/28.jpg)
Approccio corpus-based
Gli esseri umani riescono infatti a cogliere la corretta interpretazione di un messaggio da un insieme di stimoli di varia natura (ad es. contestuali ed emotivi) oltre che dalle parole e strutture che compongono il messaggio stesso.
![Page 29: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/29.jpg)
Approccio corpus-based
L’approccio corpus-based offre inoltre la possibilità di sfruttare la conoscenza che va al di là delle parole e delle strutture che compongono il linguaggio.
È quindi un modo efficiente di acquisire la conoscenza sul linguaggio.
![Page 30: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/30.jpg)
Approccio corpus-based
Si assume che un CORPUS C di un linguaggio L possa contenere (~tutta) la conoscenza necessaria a trattare L, e si acquisisce la conoscenza da esso
![Page 31: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/31.jpg)
Approccio corpus-based
Il processo di apprendimento offre come risultato•la conoscenza delle regole ed irregolarità del linguaggio (non-ristretto)•MA SOPRATTUTTO la percezione della frequenza delle strutture linguistiche
![Page 32: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/32.jpg)
Approccio corpus-based
In pratica per acquisire la conoscenza:
si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS
si cercano nel corpus le strutture linguistiche e le loro probabilità = BASE di CONOSCENZA
![Page 33: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/33.jpg)
Approccio corpus-based
In pratica un sistema corpus-based:
se incontra una struttura ambigua cerca nella base di conoscenza l’informazione utile per costruire la rappresentazione più probabile della struttura
![Page 34: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/34.jpg)
Approccio corpus-based
Ma come funziona un sistema statistico?
ad ogni struttura S del linguaggio il sistema associa un valore di probabilità
il valore di probabilità di S è dato dalla composizione delle probabilità delle parti di S
![Page 35: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/35.jpg)
Approccio corpus-based
Esempio:“il cane dorme in giardino”P(il–cane: NP) = 95%P(in-giardino: PP) = 95%P(cane-dorme: VP) = 5%…
![Page 36: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/36.jpg)
Approccio corpus-based
Ma come funziona un sistema statistico?
la probabilità di ogni parte di una frase analizzata dipende dalla sua frequenza in un CORPUS di riferimento e dal modello statistico utilizzato
![Page 37: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/37.jpg)
Approccio corpus-based
Ma come funziona un sistema statistico?
Cosa è un modello probabilistico ?
Serve a determinare come calcolare la probabilità di ogni risultato ottenuto dal sistema
![Page 38: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/38.jpg)
Approccio corpus-based
Ma come funziona un sistema statistico?
Esempio di un modello probabilistico molto usato:
i bi-grammi:- per ogni coppia <a,b> di parole avremo una stima della probabilità che a e b siano associate sintatticamente (a=il e b=cane ha maggiore probabilità di occorrere che a=il e b=gatta)
![Page 39: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/39.jpg)
Approccio corpus-based
i bi-grammi di “il cane dorme in giardino”:
1-il cane2-cane dorme3-dorme in4-in giardinoLa probabilità di 1 sarà maggiore di
quella di 2, quindi il sistema propone la costruzione di 1 invece che di 2.
![Page 40: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/40.jpg)
Approccio corpus-based
A partire dagli anni ‘90 si sono sviluppati sistemi che apprendono la conoscenza da corpora di dati linguistici per moltissimi linguaggi.
Si è progressivamente affermata anche la necessità di ANNOTARE i dati linguistici e si sono costruiti i TREEBANK.
![Page 41: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/41.jpg)
Approccio corpus-based
Attualmente i TREEBANK sono le risorse linguistiche più utilizzate nel NLP.
![Page 42: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/42.jpg)
Approccio corpus-based
Perché annotare i dati ?
L’informazione è presente in forma implicita anche nei dati non annotati.
Ma introdurre l’informazione in forma esplicita semplifica il processo di apprendimento, inoltre rende possibile la correzione.
![Page 43: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/43.jpg)
Annotazione e treebank
Come annotare i dati ?
Solitamente si annotano le informazioni di tipo morfologico e sintattico, più raramente quelle semantiche
![Page 44: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/44.jpg)
Annotazione e treebank
Come annotare i dati ?
Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.
![Page 45: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/45.jpg)
Annotazione e treebank
Quali dati annotare ?
Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.
![Page 46: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/46.jpg)
Annotazione e treebank
Quali dati annotare ?un corpus é un campione significativo
e rappresentativo di un linguaggio SE:
• contiene frasi non ristrette • è “bilanciato” rispetto al genere,
alla collocazione geografica e sociale, al tempo
• MA non rappresenta mai TUTTO il linguaggio nel suo complesso
![Page 47: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/47.jpg)
Un progetto reale: Turin University
Treebank
• Obiettivo: sviluppare una risorsa
linguistica, una banca di alberi sintattici per l’italiano
![Page 48: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/48.jpg)
Fasi di sviluppo del progetto
• Selezione dei testi da annotare
• Definizione dello schema di annotazione
• Applicazione dello schema al corpus di testi (validità e consistenza)
![Page 49: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/49.jpg)
Selezione di testi in TUT
• Giornali quotidiani (1.100 frasi = 18,044 tokens)
• Codice civile (1.100 frasi = 28,048 tokens)
• Acquis (201 frasi = 7,455 tokens)• Wikipedia (459 frasi = 14,746 tokens)• Costituzione Italiana, intera (682 frasi
= 13,178 tokens)• Totale 3.452 frasi = 102.000 token
![Page 50: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/50.jpg)
TEXTS fromPRAGUE newspapers, scientific and
economic journals
NEGRA newspaper Frankfurter Rundschau
PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations
Selezione in altri treebank
![Page 51: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/51.jpg)
Definizione dello schema di
annotazione• Scelta del formalismo
• Scelta delle informazioni e strutture da rappresentare
![Page 52: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/52.jpg)
Struttura sintattica: scelta tra 2 aspetti
• L’organizzazione delle unitá della frase (sintagmi e constituent structure)
• La funzione degli elementi della frase (relazioni grammaticali e relational structure)
![Page 53: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/53.jpg)
Relational structure• Le parole della frase
svolgono funzioni diverse
• Le funzioni sono espresse in termini di relazioni grammaticali
![Page 54: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/54.jpg)
Giorgio
ama
Maria
SUBJ OBJ
Relational structure
![Page 55: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/55.jpg)
Constituent structure
Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi
![Page 56: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/56.jpg)
ES: constituents
Giorgio ama Maria
Nome-pr Nome-pr Verbo
VP
S
NP NP
![Page 57: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/57.jpg)
Constituent structure
(S(NP ( NOME Giorgio))(VP (VERBO ama)
(NP (NOME Maria))
))
![Page 58: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/58.jpg)
Constituent structure
Le relazioni tra le parole non sono tutte uguali:
“Maria leggeva un libro in biblioteca”
![Page 59: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/59.jpg)
ES: Penn annotation
( S
( NP - SBJ (PRP I) )
( ADVP - TMP ( RB never) )
( VP (VBD had)
( NP (JJ many) (NNS clients) )
( NP - ADV (DT a) ( NN day) ))
))
NP
VP
NP
ADVP
NP
S
SBJ
TMP
PRP
RB
VBD
NNSDT
NNDTADV
![Page 60: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/60.jpg)
ES: NEGRA annotation
S
VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
![Page 61: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/61.jpg)
Costituenti e relazioni
• La struttura relazionale include le informazioni relative all’
organizzazione della frase in unità
• La struttura a costituenti non include le informazioni relative alla funzione delle parole
• La struttura relazionale è più compatta
![Page 62: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/62.jpg)
• Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue
• La struttura relazionale include la struttura argomentale
Costituenti e relazioni
![Page 63: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/63.jpg)
La struttura argomentale
• relazioni grammaticali
• ruoli semantici
• uguali o distinti?
![Page 64: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/64.jpg)
Le relazioni grammaticali
• Identificabili da varie proprietà
• Diverse nelle varie lingue
![Page 65: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/65.jpg)
Le relazioni grammaticali
• Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni
give someone something dare a qualcuno qualcosa
![Page 66: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/66.jpg)
MORPHO SYNT SEM
PRAGUE semi-automatic
semi-automatic
semi-automatic
NEGRA automatic interactive(probabilistic)
PENN automatic automatic (skeletal)
Processo di annotazione
![Page 67: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/67.jpg)
Processo di annotazione in TUT
• Part Of Speech tagging automatico
• Correzione manuale del tagging
• Parsing interattivo
• Verifica e revisione
![Page 68: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/68.jpg)
Costruire un treebank
Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.
Infatti è dimostrato che i sistemi di NLP che ottengono i migliori risultati sono quelli che prendono le informazioni da treebank)
![Page 69: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/69.jpg)
Costruire un treebank
Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.
È impossibile costruire treebank in modo esclusivamente manuale per motivi di tempo e di correttezza.
![Page 70: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/70.jpg)
Costruire un treebank
In pratica l’annotazione dei treebank è prodotta da
sistemi automatici di analisi morfologica (-4%) e sintattica (-10%)
+annotatori umani che correggono le analisi prodotte in modo automatico
![Page 71: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/71.jpg)
![Page 72: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/72.jpg)
![Page 73: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/73.jpg)
Ogni relazione di TUT può essere composta di 3 elementi:
• Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, …
• Funzionale-sintattico: relazioni sintattiche come Subject, Object
• Semantico: relazioni semantiche come Location, Time, Cause
Turin University Treebank (2)Relazioni in TUT
![Page 74: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/74.jpg)
1 In (IN PREP MONO) [7;PREP-RMOD-TIME]2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-
ARG]3 giorni (GIORNO NOUN COMMON M PL)
[2;DET+DEF-ARG]4 Sudja (|Sudja| NOUN PROPER) [7;VERB-
SUBJ]5 la (IL ART DEF F SING) [4;APPOSITION]6 zingara (ZINGARO NOUN COMMON F SING)
[5;DET+DEF-ARG]7 annunciava (ANNUNCIARE VERB MAIN IND
IMPERF TRANS 3 SING) [0;TOP-VERB]8 il (IL ART DEF F SING) [7;VERB-OBJ]9 fallimento (FALLIMENTO NOUN COMMON M
SING FALLIRE INTRANS) [8;DET+DEF-ARG]
![Page 75: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/75.jpg)
La nazione sogna ricchezza
I sogni di ricchezza della nazione
Velocemente / in modo veloce
VERB-SUBJ
NOUN-OBJ NOUN-SUBJ
VERB-OBJ VERB
NOUN
ADV-role ADV-role
TUT Componente morfo-sintattica
![Page 76: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/76.jpg)
TUT Componente morfo-sintattica
![Page 77: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/77.jpg)
• Dati 944 differenti Verbi per un totale di 4.169 occorrenze nel corpus di TUT
• Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale
TUT Componente morfo-sintattica
![Page 78: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/78.jpg)
Egli non è stato visto da nessuno
Egli non è stato visto da ieri
ARG
MOD
TUT Componente funzionale-sintattica
![Page 79: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/79.jpg)
TUT Componente funzionale-sintattica
![Page 80: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/80.jpg)
Da qui è partito l’assalto
Succedeva dall’altra parte del mondo
I miliardi stanziati dal 1991
Era impazzito dal dolore
Trarrà beneficio dalla bonifica
LOC+FROM
LOC+IN
TIME
REASONCAUSE
SOURCE
TUT Componente semantica
![Page 81: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/81.jpg)
TUT Componente semantica
![Page 82: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/82.jpg)
• Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di modificatori
• È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
TUT Componente semantica
![Page 83: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/83.jpg)
1 In (IN PREP MONO) [7;PREP-RMOD-TIME]2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-
ARG]3 giorni (GIORNO NOUN COMMON M PL)
[2;DET+DEF-ARG]4 Sudja (|Sudja| NOUN PROPER) [7;VERB-
SUBJ]5 la (IL ART DEF F SING) [4;APPOSITION]6 zingara (ZINGARO NOUN COMMON F SING)
[5;DET+DEF-ARG]7 annunciava (ANNUNCIARE VERB MAIN IND
IMPERF TRANS 3 SING) [0;TOP-VERB]8 il (IL ART DEF F SING) [7;VERB-OBJ]9 fallimento (FALLIMENTO NOUN COMMON M
SING FALLIRE INTRANS) [8;DET+DEF-ARG]
![Page 84: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/84.jpg)
Applicare lo schema di annotazione a TUT significa che ogni sua frase:
•viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con TUT•corretta da almeno 2 annotatori umani•verificata da tool automatici appositi•sottoposta a conversioni e applicazione di altri sistemi
![Page 85: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/85.jpg)
Ricadute del progetto TUT
Utilizzo in 3 diverse direzioni:• Come raccolta di dati linguistici• Come banco di prova per sistemi
di NLP• Come modello per lo sviluppo di
altre risorse
![Page 86: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/86.jpg)
• Come raccolta di dati linguistici TUT ha consentito
• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)
• Studio dell’ordine delle parole nella lingua italiana
Ricadute del progetto TUT
![Page 87: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/87.jpg)
(in 3500 sentences)
Ricadute del progetto TUT
![Page 88: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/88.jpg)
• Come banco di prova per sistemi di NLP TUT ha consentito di raggiungere i risultati allo stato dell’arte per il parsing dell’italiano, errore intorno al 10%
• TUT è il treebank di riferimento nelle competizioni per parser di italiano (Evalita 07, 09, 11)
Ricadute del progetto TUT
![Page 89: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/89.jpg)
• Come modello per lo sviluppo di altre risorse, TUT è utilizzato in:
• in prospettiva cross-linguistica, è in corso di sviluppo un treebank parallelo per le lingue italiano, francese e inglese (ParTUT)
• per lo studio di fenomeni legati all’espressione di sentimenti, opinioni ed emozioni, è in corso di sviluppo un corpus di testi di Twitter annotato morfologicamente (SentiTUT)
Ricadute del progetto TUT
![Page 90: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/90.jpg)
• INOLTRE: TUT è stato tradotto in formati di altri treebank grazie a tool di conversione automatica
• Questo ha reso possibile l’applicazione di strumenti sviluppati per tali formati ed il confronto tra paradigmi e modelli linguistici differenti nell’ambito del dibattito su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali
Ricadute del progetto TUT
![Page 91: Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2013-2014](https://reader036.vdocuments.net/reader036/viewer/2022062702/5542eb76497959361e8e0b2c/html5/thumbnails/91.jpg)
Il Turin University Treebank (TUT), ParTUT e SentiTUT sono tutti progetti
dell’Interaction Models Group (L. Lesmo, C. Bosco, A. Mazzei, V. Lombardo, L. Robaldo, M. Sanguinetti)
del Dipartimento di Informatica dell’Università di Torino