![Page 1: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/1.jpg)
Linguis'ca computazionale e treebank
Cris%na Bosco
Corso di Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
![Page 2: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/2.jpg)
Il proge=o Turin University Treebank
• ObieFvo:
sviluppare una risorsa linguis%ca, una banca di alberi sintaFci per l’italiano
![Page 3: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/3.jpg)
Fasi di sviluppo del proge=o
• Selezione dei tes% da annotare
• Definizione dello schema di annotazione
• Applicazione dello schema al corpus di tes% (validità e consistenza)
![Page 4: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/4.jpg)
Selezione di tes' in TUT
• Giornali quo%diani (1.100 frasi = 18,044 tokens) • Codice civile (1.100 frasi = 28,048 tokens) • Acquis (201 frasi = 7,455 tokens) • Wikipedia (459 frasi = 14,746 tokens)
• Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)
• Totale 3.452 frasi = 102.000 token
![Page 5: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/5.jpg)
TEXTS from PRAGUE newspapers, scientific and economic
journals
NEGRA newspaper Frankfurter Rundschau
PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations
Selezione in altri treebank
![Page 6: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/6.jpg)
Definizione dello schema di annotazione
• Scelta del formalismo
• Scelta delle informazioni e stru=ure da rappresentare
![Page 7: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/7.jpg)
Stru=ura sintaFca: scelta tra 2 aspeF
• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)
• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal structure)
![Page 8: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/8.jpg)
Rela%onal structure
• Le parole della frase svolgono funzioni diverse
• Le funzioni sono espresse in termini di relazioni gramma%cali
![Page 9: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/9.jpg)
Cons%tuent structure
Le parole della frase sono organizzate in unità (cos%tuen%) che a loro volta sono ogge=o di una organizzazione (cons%tuent structure) in unità più grandi
![Page 10: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/10.jpg)
Cons%tuent structure
Le relazioni tra le parole non sono tu=e uguali:
“Maria leggeva un libro in biblioteca”
![Page 11: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/11.jpg)
ES: Penn annota'on
( S
( NP -‐ SBJ (PRP I) )
( ADVP -‐ TMP ( RB never) )
( VP (VBD had)
( NP (JJ many) (NNS clients) )
( NP -‐ ADV (DT a) ( NN day) ))
))
NP
VP
NP
ADVP
NP
S
SBJ
TMP
PRP
RB
VBD
NNS DT
NN DT ADV
![Page 12: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/12.jpg)
ES: NEGRA annota'on
S
VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
![Page 13: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/13.jpg)
Cos%tuen% e relazioni • La stru=ura relazionale include le informazioni rela%ve all’
organizzazione della frase in unità
• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole
• La stru=ura relazionale è più compa=a
![Page 14: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/14.jpg)
• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle diverse lingue
• La stru=ura relazionale include la stru=ura argomentale
Cos%tuen% e relazioni
![Page 15: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/15.jpg)
La stru=ura argomentale
• relazioni gramma%cali
• ruoli seman%ci
• uguali o dis%n%?
![Page 16: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/16.jpg)
Le relazioni gramma%cali
• Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni
give someone something dare a qualcuno qualcosa
![Page 17: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/17.jpg)
MORPHO SYNT SEM PRAGUE semi-
automatic semi-automatic
semi-automatic
NEGRA automatic interactive (probabilistic)
PENN automatic automatic (skeletal)
Processo di annotazione
![Page 18: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/18.jpg)
Processo di annotazione in TUT
• Part Of Speech tagging automa%co
• Correzione manuale del tagging
• Parsing interaFvo
• Verifica e revisione
![Page 19: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/19.jpg)
Costruire un treebank
Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.
InfaF è dimostrato che i sistemi di NLP che o=engono i migliori risulta% sono quelli che prendono le informazioni da treebank)
![Page 20: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/20.jpg)
Costruire un treebank
Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.
È impossibile costruire treebank in modo esclusivamente manuale per mo%vi di tempo e di corre=ezza.
![Page 21: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/21.jpg)
Costruire un treebank In pra%ca l’annotazione dei treebank è prodo=a da
sistemi automa%ci di analisi morfologica (-‐4% errore) e sintaFca (-‐10% errore)
+ annotatori umani che correggono le analisi prodo=e in modo automa%co
![Page 22: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/22.jpg)
Ogni relazione di TUT può essere composta di 3 elemen%:
• Morfo-‐sintaFco: features che esprimono la categoria gramma%cale Verb, Noun, …
• Funzionale-‐sintaFco: relazioni sintaFche come Subject, Object
• Seman%co: relazioni seman%che come Loca%on, Time, Cause
Le dipendenze nel TUT
![Page 23: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/23.jpg)
1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-‐ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]
8 il (IL ART DEF F SING) [7;VERB-‐OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-‐ARG]
![Page 24: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/24.jpg)
![Page 25: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/25.jpg)
![Page 26: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/26.jpg)
La nazione sogna ricchezza
I sogni di ricchezza della nazione
Velocemente / in modo veloce
VERB-‐SUBJ
NOUN-‐OBJ NOUN-‐SUBJ
VERB-‐OBJ VERB
NOUN
ADV-‐role ADV-‐role
TUT Componente morfo-‐sinta\ca
![Page 27: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/27.jpg)
TUT Componente morfo-‐sinta\ca
![Page 28: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/28.jpg)
• Da% 944 differen% Verbi per un totale di 4.169 occorrenze nel corpus di TUT
• Il 30% di ques% Verbi (e le stru=ure predica%ve argomentali ad essi associate) risulta presente anche in forma nominale
TUT Componente morfo-‐sinta\ca
![Page 29: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/29.jpg)
Egli non è stato visto da nessuno
Egli non è stato visto da ieri
ARG
MOD
TUT Componente funzionale-‐sinta\ca
![Page 30: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/30.jpg)
TUT Componente funzionale-‐sinta\ca
![Page 31: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/31.jpg)
Da qui è par%to l’assalto
Succedeva dall’altra parte del mondo
I miliardi stanzia% dal 1991
Era impazzito dal dolore
Trarrà beneficio dalla bonifica
LOC+FROM
LOC+IN
TIME
REASONCAUSE
SOURCE
TUT Componente seman'ca
![Page 32: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/32.jpg)
TUT Componente seman'ca
![Page 33: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/33.jpg)
• Da% 600 sintagmi preposizionali introdoF dalla preposizione DA e che svolgono il ruolo di modificatori
• È stato rilevato che essi possono assumere i seguen% 7 differen% valori seman%ci: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
TUT Componente seman'ca
![Page 34: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/34.jpg)
1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-‐ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]
8 il (IL ART DEF F SING) [7;VERB-‐OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-‐ARG]
![Page 35: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/35.jpg)
Applicare lo schema di annotazione a TUT significa che ogni sua frase:
• viene parsificata in modo automa%co dal parser TULE, sviluppato in parallelo con TUT • corre=a da almeno 2 annotatori umani • verificata da tool automa%ci apposi% • so=oposta a conversioni e applicazione di altri sistemi
![Page 36: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/36.jpg)
Ricadute del proge]o TUT
U%lizzo in 3 diverse direzioni:
• Come raccolta di da% linguis%ci
• Come banco di prova per sistemi di NLP
• Come modello per lo sviluppo di altre risorse
![Page 37: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/37.jpg)
• Come raccolta di da% linguis%ci TUT ha consen%to
• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)
• Studio dell’ordine delle parole nella lingua italiana
Ricadute del proge]o TUT
![Page 38: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/38.jpg)
(in 3500 sentences)
Ricadute del proge]o TUT
![Page 39: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/39.jpg)
• Come banco di prova per sistemi di NLP TUT ha consen%to di raggiungere i risulta% allo stato dell’arte per il parsing dell’italiano, errore intorno al 10%
• TUT è stato il treebank di riferimento nelle compe%zioni per parser di italiano (Evalita 07, 09, 11)
Ricadute del proge]o TUT
![Page 40: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/40.jpg)
• Come modello per lo sviluppo di altre risorse, TUT è u%lizzato in:
• in prospeFva cross-‐linguis%ca, ha consen%to lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)
Ricadute del proge]o TUT
![Page 41: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/41.jpg)
• INOLTRE: TUT è stato trado=o in forma% di altri treebank grazie a tool di conversione automa%ca
• Questo ha reso possibile l’applicazione di strumen% sviluppa% per tali forma% ed il confronto tra paradigmi e modelli linguis%ci differen% nell’ambito del dibaFto su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali
Ricadute del proge]o TUT
![Page 42: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/42.jpg)
Il Turin University Treebank (TUT) e ParTUT sono tuF progeF
del Content Centered Compu%ng Group (C. Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. PaF, M. SanguineF)
del Dipar%mento di Informa%ca dell’Università di Torino
![Page 43: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/43.jpg)
Per ulteriori informazioni:
h=p://www.di.unito.it/~tutreeb
![Page 44: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/44.jpg)
Un treebank parallelo italiano francese e inglese nel formato del TUT.
Il proge]o ParallelTUT
![Page 45: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/45.jpg)
Un importante problema per la LC è la valutazione:
sia come confronto tra risulta% degli umani e quelli del sistema di LC
sia come confronto tra i risulta% di sistemi diversi
Treebank e valutazione
![Page 46: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/46.jpg)
L’esistenza di molte risorse diverse rende però difficile confrontare i risulta% o=enu% da diversi sistemi e la valutazione deve sempre essere fa=a in relazione alle stesse risorse.
Se il sistema X e il sistema Y u%lizzano lo stesso corpus per apprendere, o=engono lo stesso output?
Treebank e valutazione
![Page 47: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/47.jpg)
La comunità della LC opera pertanto nella direzione di rendere confrontabili i risulta% dei sistemi che svolgono lo stesso task.
Questo significa ad esempio che si cerca di costruire risorse in cui si u%lizza lo stesso formato di rappresentazione (standard).
Treebank e valutazione
![Page 48: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/48.jpg)
La nozione di standard è par%colarmente rilevante per i treebank e ha portato alla definizione di un formato universale de=o Universal Dependency.
Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue.
Treebank e standard
![Page 49: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/49.jpg)
Per la lingua italiana ad esempio sono sta% crea%, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntac%c Seman%c Treebank (presso l’Is%tuto di Linguis%ca Computazionale CNR di Pisa).
Ques% sono sta% fusi grazie ad un processo di conversione in un formato intermedio e poi tradoF in Universal Dependency.
Treebank e standard
![Page 50: Linguiscacomputazionale* e treebank*bosco/lingue2017/NLPtreebank-2017.pdf · Linguiscacomputazionale* e treebank* Cris%naBosco(Corso(di(Informacaapplicataalla comunicazione(mul%mediale(20162017](https://reader034.vdocuments.net/reader034/viewer/2022052020/603499d869b3d65baa4150d4/html5/thumbnails/50.jpg)
Questo formato soddisfa l’interesse per confron% mul%lingui e rende possibile sia campagne di valutazione mul%lingui sia l’apprendimento cross-‐linguistco a supporto della LC per lingue per cui non esistono risorse.
h=p://universaldependencies.org/
Universal Dependency