metodi e tecniche per il monitoraggio dell'evoluzione ... · metodi e tecniche per il...
TRANSCRIPT
Metodi e tecniche per il monitoraggio
dell'evoluzione delle competenze
linguistiche di apprendenti l'italiano
Tesi di laurea magistrale
Stefan Richter
28.07.2015
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 2
Chi sono io
• Studente magistrale informatica a Lipsia– Linguistica e informatica umanistica
• Erasmus all'Università di Pisa– Da settembre a febbraio– Diversi corsi
• Tirocino a ItaliaNLP Lab– Da marzo a settembre– Tesi
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 3
Da dove vengo - Lipsia
• 550.000 Abitanti• Grande Storia
– Battaglia di Lipsia 1813– Rivoluzione pacifica 1989– Alcune persone famose
• Johann Sebastian Bach• Felix Bartholdy Mendelssohn• Richard Wagner• Johann Wolfgang Goethe• Gottfried Wilhelm Leibnitz• Martin Luther• Friedrich Nietzsche• Angela Merkel
• NLP all'Università di Lipsia– Linguistica computazionale: Prof. Dr. Gerhard Heyer– Informatica Umanistica: Prof. Gregory Crane– Semantic Web: Dr. Jens Lehmann
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 4
Agenda
• Motivazione
• Corpus
• Metodi e tecniche
• Risultati
• Previsione
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 5
Motivazione
• Università Roma la Sapienza + CNR ILC Pisa
• Metodi per monitore le competenze linguistiche degli studenti italiani in L1 – grandi cambiamenti nell'età fra 11-13 anni
• Investigare fattori socio-culturali
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 6
Motivazione
• Cosa cambia in questi due anni?
• Dove uno studente ha problemi?• Dove ha migliorato?• Che tipi di esercizi sono utili per lo studente? • (Proporre un voto)
• Quali fattori influiscono di più sulle competenze: l'età o l'ambiente?
• Quale effetto hanno 3 mesi di vacanze sulle competenze degli studenti?
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 8
Corpus
• 156 Studenti da 7 scuole di Roma– 1. + 2. classe della
scuola secondaria di primo grado
– 11 – 13 anni
• Centro: 77 studenti• Periferia: 79 studenti
Studente
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 9
Corpus
• 156 Studenti da 7 scuole di Roma– 1. + 2. classe della
scuola secondaria di primo grado
– 11 – 13 anni
• Centro: 77 studenti• Periferia: 79 studenti
Studente
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 10
Corpus
• 34 domande– “Sei nato in Italia?”– “Che lingua si parla a
casa tua?”– “Qual è il lavoro di tuoi
genitori?”– “Quanti libri ci sono a
casa tua?”
Studente Sfondo
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 11
Corpus
• Testi di uno studente nei 2 anni
• 1352 testi
Studente Sfondo
Testo 1 Testo 2 Testo 3
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 12
Testi per ogni anno scolastico
Mario Scuola: Buzzati
LuigiScuola: Buzzati
ClaudiaScuola: Visconti
Prova Comune
Prova Comune
Prova Comune
Testo 1 Traccia A
Testo 2 Traccia C
Testo 3 Traccia A
Testo 1 Traccia B
Testo 2 Traccia C
Testo 3 Traccia B
Testo 4 Traccia A
Testo 1 Traccia A
Testo 2 Traccia C
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 13
Corpus
• Testi sono stati digitalizzati
• Errori annotati manualmente – 20 tipi in 3 macro
categorie
Studente Sfondo
Testo 1 Testo 2 Testo 3
Errori annotati
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 14
Grammatica: 10. Errori grammaticali in generale11. Verbi. Uso errato tempi12 Verbi. Uso errato dei modi 13 Verbi. Errata concordanza con il soggetto14. Preposizioni. uso errato (una per l’altra)15. Preposizioni. Omissione16. Pronomi: uso errato17. pronomi: omissione18 Pronomi: eccesso19. Uso errato pronome relativo111. Uso errato articoli112 Uso errato congiunzioni e/o connettiviOrtografia:20. Errori ortografici in generale21 Doppie per difetto (“tera”anziché “terra”)22 Doppie per eccesso (“subbito” anziché “subito”)23 H per difetto24 H per eccesso25 Monosillabi accentati uso errato26 Po o pò e anziché po’27 Errori nell’uso dell’apostrofoLessico31 Uso errato di un termine
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 15
Corpus
• Caratteristiche linguistiche– Monitor-IT: annotazione
linguistica automatica ed estrazione di informazione linguistica
• 147 features linguistiche– Type/Token Ratio– Lunghezza media delle parole– percentuale di aggettivi– ...
• Un vettore di features per ogni testo
Studente Sfondo
Testo 1 Testo 2 Testo 3
Errori annotati Features linguistiche
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 17
Corpus: Criticità
• Nessun voto per i testi
• Nessuna data– Testi in ordine cronologico
• Distribuzione testo/studente– 6 studenti con 1 testo– 4 studenti con 13 testi
• Annotazione degli errori
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 19
Calcolare la competenza linguistica?
• Calcolare un valore assoluto è difficile– Non ci sono i voti
• Ipotesi: quando cresce l'età cresce anche la
competenza linguistica
• La competenza linguistica calcolata come confronto fra 2 testi di uno studente:– Qual è più vecchio? → competenza inferiore– Qual è più nuovo? → competenza maggiore
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 20
Metodo
• Confronto tra i due testi trasformato in un problema di classificazione: Supervised machine learning– LIBSVM in Pyhton
• Parameter– Classi: 1 se testo1 > testo2, altrimenti 0– Features: Vettore(testo1) – Vettore(testo2)
Featurevector V1 = {f1, f2 …, f147}Testo 1
Featurevector V2 = {f1, f2 …, f147}Testo 2
V1 - V2
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 21
Metodo
• 7 Fold Cross-validation– Ogni scuola è un fold– Fase 1: Training set (scuole 1-6) , Test set (Scuola 7)– Fase 2: Training set (Scuole 1-5 e 7), Test set (Scuola 6)– ...– Fase 7: Training set (Scuole 2-7) , Test set (Scuola 1)
• Media ponderata dei risultati di tutte le fasi
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 22
Approccio ingenuo
• Paragone fra il primo e l'ultimo testo per ogni studente
• Tutte le 147 Features• F: 89.3%
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 23
Approccio ingenuo
• Paragone fra il primo e l'ultimo testo per ogni studente
• Tutte le 147 Features• F: 89.3%
• Paragone fra il primo e il penultimo testo per ogni studente
• Tutte le 147 Features• F: 71.7%
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 24
Approccio ingenuo
Mario Scuola: Buzzati
LuigiScuola: Buzzati
ClaudiaScuola: Visconti
Prova Comune
Prova Comune
Prova Comune
Testo 1 Traccia A
Testo 2 Traccia C
Testo 3 Traccia A
Testo 1 Traccia B
Testo 2 Traccia C
Testo 3 Traccia B
Testo 4 Traccia A
Testo 1 Traccia A
Testo 2 Traccia C
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 25
• Prova Comune nel secondo anno:– „consigli ad un coetaneo su come scrivere un tema“– Molti verbi in 2a singolare– Uso frequente del imperativo– Uso frequente del futuro
• Overfitting– Non trova il testo con la competenza linguistica maggiore– Trova il topic della prova comune
• Feature Selection
Approccio ingenuo
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 26
Feature Selection
• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 27
Feature Selection
T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC
5
10
15
20
25
• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 28
Feature Selection
T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC
5
10
15
20
25
• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi
Studente 1
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 29
Feature Selection
T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC
5
10
15
20
25
• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi
Studente 1 + 2
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 30
Feature Selection
T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC
5
10
15
20
25
• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi
Tutti
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 31
Feature Selection
T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC
5
10
15
20
25
• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi
Tutti
Corr = 0,11
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 32
Feature Selection 1: Features linguistiche
• Correlazione fra la feature e il numero del testo senza prova comune
132 Verbi+Numero+Persona_VA+p+1 percentuale di verbi ausiliari alla prima persona plurale -0,1683334929
69 Numero di Token: numero di token 0,1647771882
67 Numero di Frasi: numero di frasi 0,1623206378
50 DIP_prep percentuale di relazioni di dipendenza di tipo preposition 0,1531560911
19 CPOS_E percentuale di preposizioni 0,1475058656
82 POS_EA percentuale di preposizioni articolate 0,1411693354
30 DIP_aux percentuale di relazioni di dipendenza di tipo auxiliary -0,1367923545
124 Verbi+Modo_VA+i percentuale di verbi ausiliari di modo indicativo -0,1356167792
113 Range 200.0 Type(lemmi)/token: Type/token ratio (primi 200 token) 0,1300971144
105 POS_VA percentuale di verbi ausiliari -0,1275948332
66 Numero di Caratteri per Token media dei caratteri per token 0,1263157678
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 33
• Correlazione fra la feature e il numero del testo senza prova comune– Alcune sono ridondanti
132 Verbi+Numero+Persona_VA+p+1 percentuale di verbi ausiliari alla prima persona plurale -0,1683334929
69 Numero di Token: numero di token 0,1647771882
67 Numero di Frasi: numero di frasi 0,1623206378
50 DIP_prep percentuale di relazioni di dipendenza di tipo preposition 0,1531560911
19 CPOS_E percentuale di preposizioni 0,1475058656
82 POS_EA percentuale di preposizioni articolate 0,1411693354
30 DIP_aux percentuale di relazioni di dipendenza di tipo auxiliary -0,1367923545
124 Verbi+Modo_VA+i percentuale di verbi ausiliari di modo indicativo -0,1356167792
113 Range 200.0 Type(lemmi)/token: Type/token ratio (primi 200 token) 0,1300971144
105 POS_VA percentuale di verbi ausiliari -0,1275948332
66 Numero di Caratteri per Token media dei caratteri per token 0,1263157678
Feature Selection 1: Features linguistiche
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 34
Feature Selection 2: Classe di frequenza
• „italian news 2010–today“ del Wortschatz– Corpus di Lipsia– 1 milione di frasi
• Correlazione fra la classe di frequenza e il numero del testo per i token delle seguenti POS– Tutti 0.1– Verbi, aggettivi, avverbi, sostantivi 0.05– Verbi, aggettivi, avverbi 0.16– Verbi 0.21
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 35
Feature Selection 2: Classe di frequenzadi 772435e 459074il 386669che 337951la 335282in 295050a 292472per 257706un 239703del 233643è 229506della 174568ha 173850con 155676una 149745non 149109i 146700si 136895le 132714al 121872da 121782l 121392sono 94137dei 89579Il 86566alla 73716nel 72494La 69487
di 1404759il 1306708e 533375essere 502590in 486180uno 449804a 437649che 341552avere 306335per 282420da 248085si 183993al 182018non 173273l 167985con 167482su 122717questo 87930anche 84467ma 80840lo 73111dell 66931fare 66771più 65575stato 63927suo 63426tutto 61185come 56619
essere 471030avere 297693fare 66519potere 53192dire 41824dovere 35058stare 26289andare 24727volere 21028vedere 20923venire 20866dare 19090arrivare 18162trovare 15564parlare 14892mettere 14240chiedere 13585spiegare 12579porre 12528continuare 11792partire 11529sapere 11308prendere 11143correre 11084aggiungere 11055pensare 10988
Lemmi +ignore case
Verbi
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 36
Feature Selection 2: Classe di frequenza
essere 471030avere 297693fare 66519potere 53192dire 41824dovere 35058stare 26289andare 24727volere 21028vedere 20923venire 20866dare 19090arrivare 18162trovare 15564parlare 14892mettere 14240chiedere 13585spiegare 12579
Ho undici anni compiuti il primo Ottobre e frequento la prima media della scuola
Avere undici anno compiere il primo Ottobre e frequentare il primo media di scuola
Lemmi
Avere compiere frequentare
Verbi
log2 (freq(Z) / freq(X))
Z = most frequent Word (essere)
Calcolare classe di frequenza
1 8 4
Media del testo
4.33333
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 37
Feature Selection: Sintesi
• 9 Features– Verbi+Numero+Persona_VA+p+1– Numero di Token:– Numero di Frasi:– DIP_prep– DIP_aux– Verbi+Modo_VA+i– Range 200.0 Type(lemmi)/token:– Numero di Caratteri per Token
– Classe di frequenza
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 40
Risultati
• Scarsi risultati per la scuola 3– Centro di Roma
• Ipotesi– Studenti hanno già una grande competenza linguistica– Si migliorano in altre aree– “Sono già un anno avanti”
• Dimostrazione – Correlazione scuola 3 nel primo anno contro altre
scuole nel secondo anno
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 41
Risultati
• Ipotesi non è stata confermata
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 42
Previsione
• Gli Errori nel corpus sono stati annotati manualmente
• 3 altre Features: Errori– errori grammaticali / parole– errori ortografici / parole– errori lessicali / parole
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 44
Previsione
• Trovare errori automaticamente con PyEnchant– Libreria per python– Testi con 84 errori ortografici– 72 sono stati trovati...– ...e 316 altri (falsi errori trovati)
• Trovare errori automaticamente è difficile
28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 45
Sintesi
• Calcolare le competenze linguistiche attraverso il confronto tra due testi– Corpus: 1352 testi di 156 studenti di Roma
• Selezionate 9 Features– 8 dall'analisi linguistica automatica (Typen/Toke ratio, numero
di frasi, percentuale di relazioni di dipendenza “preposition”, ...)– Classe di frequenza dei verbi con Wortschatz– Futuro: Errori
• Primo e ultimo testo F: 82.8%• Primo e penultimo testo F: 79.8%