linguistica computazionale - elearning.humnet.unipi.it · 2 obiettivi del corso l introduzione ai...
TRANSCRIPT
27 settembre 2016
Linguistica Computazionale
2
Obiettivi del corso l Introduzione ai principali metodi di linguistica
computazionale e di “Natural Language Processing” (NLP)
l Docenti l Alessandro Lenci (Dip. di Filologia, Letteratura e Linguistica) l Felice Dell’Orletta (ILC-CNR)
3
Modalità d’esame l Prove scritte agli appelli di esame + progetto
l la prova scritta è divisa in 2 parti, che possono essere date simultaneamente o in appelli diversi
l il progetto deve essere svolto INDIVIDUALMENTE l Le prove scritte possono essere sostenute come prove in
itinere l NB: SOLO PER FREQUENTANTI
l Per superare l’esame è necessario conseguire almeno 18/30 in ciascuna delle prove scritte + idoneità sul progetto l il voto d’esame è dato dalla media dei voti delle prove scritte + bonus
per il progetto (1 o 2 punti)
4
Esercitazioni di laboratorio l Mercoledì 8.30 – 10.00
l Laboratorio M - Polo Fibonacci l chi non possiede un account deve farne richiesta al Centro di
Calcolo presso il Polo Fibonacci
l Inizio: Mercoledì 28 settembre l Temi delle esercitazioni
l introduzione a Natural Language Toolkit (NLTK) l espressioni regolari l estrazione ed analisi di dati linguistici da corpora l esercizi di statistica del testo l annotazione linguistica automatica del testo con NLTK
5
Esercitazioni di laboratorio l Esperimento di annotazione semantica
l annotazione semantica di Named Entities in testi della pubblica amministrazione, nell’ambito del progetto SEMPLICE
l l’annotazione verrà realizzata attraverso un’interfaccia web sviluppata da ETI3
l Assistente l Dott. Lucia Passaro
6
Informazioni e contatti l Ricevimento
l Prof. Alessandro Lenci l giovedì 15.00-17.00
Dipartimento di Filologia, Letteratura e Linguistica, Via Santa Maria 36 e-mail: [email protected] tel.: 050-2215638 www: http://colinglab.humnet.unipi.it/people/lenci/
l Dott. Felice Dell’Orletta l venerdì16.00-18.00
Istituto di Linguistica Computazionale CNR, Via Moruzzi 1 (stanza 21) e-mail: [email protected] tel.: 050-3152847
l E-learning l Moodle: http://polo4.elearning.unipi.it/ l informazioni sul corso, materiale didattico, avvisi, prove di esame, ecc.
l NB: tutti gli studenti del corso devono registrarsi
7
Testi di esame
l A. Lenci, S. Montemagni, V. Pirrelli (2005), Testo e Computer. Elementi di linguistica computazionale, Roma, Carocci
l D. Jurafsky e J.H. Martin (2008), Speech and Language Processing, (second edition), Prentice Hall l capp. 1, 2, 3, 4.10-4.11, 5.1-5.4, 12, 13.1-13.3, 13.5, 19
l S. Bird, E. Klein, E. Loper (2009), Natural Language
Processing with Python, O’Reilly (liberamente scaricabile da http://www.nltk.org/book/) l capp. 1, 2, 3, 7, 8
Crediti e programmi
l 12 CFU l tutte le lezioni ed esercitazioni l due prove in itinere l progetto finale
l creazione di un corpus, analisi computazionale con NLTK e annotazione semantica di Named Entities
l testi di esame l Testo e Computer l Speech and Language Processing
8
Cosa è la linguistica computazionale?
l La linguistica computazionale è un settore di ricerca che vede coinvolti linguisti, informatici e scienziati cognitivi per raggiungere due obiettivi principali: l applicare la matematica e l'informatica allo studio del
linguaggio umano e dei testi l dotare i computer della capacità di usare il linguaggio
come noi 9
linguaggio naturale
La linguistica computazionale a Pisa l Pisa è stata la culla della linguistica computazionale italiana
ed è tuttora uno dei maggiori centri di ricerca in questo settore
10
CoLing Lab (Uni. Pisa) http://colinglab.fileli.unipi.it
ILC-CNR http://www.ilc.cnr.it/
Big (linguistic) data
12
Cosa può fare il computer per lo studio del linguaggio? l Come studiare …
l la distribuzione della parole in un autore letterario l i mutamenti semantici delle parole l le differenze linguistiche tra vari registri (es. linguaggio scritto e
parlato) l il lessico e le costruzioni grammaticali di una lingua
l Digital humanities l quantità crescenti di testi sono disponibili in formato digitale per la
ricerca linguistica l i testi digitali sono fonti di dati per la ricerca linguistica e filologica l è necessario disporre di metodologie per la rappresentazione, la
ricerca e l’analisi dei dati testuali digitali
13
Analisi computazionale dei dati linguistici l La linguistica computazionale permette di affrontare
queste ricerche attraverso l metodi e strumenti informatici per la rappresentazione e
gestione di grandi quantità di dati linguistici l rappresentazione digitale del testo l codifica e annotazione di informazione linguistica
l ricerche ed esplorazioni avanzate del testo l ricerche di informazioni testuali e dati linguistici l visualizzazione dell’informazione nel testo
l metodi matematici e statistici l analisi quantitative dei dati linguistici
l Le potenzialità “standard” del computer possono essere usate per la gestione e l’analisi dei dati linguistici… ma non bastano!
14
Il computer non conosce il linguaggio naturale ovvero
non ha alcuna conoscenza riguardo alla sua struttura
Analisi computazionale dei dati linguistici
l forme superficiali vs. lessemi: l NAVIGARE {navigo, navighi, … , navigava, … , navigato …}
l ambiguità morfosintattiche l stato {stato, m.s. -> STATO, N}
{stato, part. pass -> ESSERE, V} {stato, part. pass -> STARE, V}
l ambiguità semantiche l navigare {andare per mare}
{visitare pagine web su Internet}
15
Cosa può fare il linguaggio per il computer? l Il Natural Language Processing (NLP) o Trattamento
Automatico del Linguaggio (TAL) cerca di dotare il computer di conoscenze linguistiche allo scopo di: l progettare programmi e sistemi informatici che
assistano l’uomo in “compiti linguistici” l traduzione l gestione dei testi, ecc. l interazione con essere umani in maniera “naturale” l estrazione automatica di informazioni da testi o da altri media
16
Natural Language Processing (NLP) l Quali conoscenze linguistiche deve possedere il computer?
l articolare e decodificare i suoni di una lingua l fonetica articolatoria e acustica, fonologia, prosodia, ecc.
l conoscere le parole di una lingua, la loro struttura e la loro organizzazione l lessico e morfologia
l comporre le parole in espressioni linguistiche complesse (sintagmi, frasi, ecc.) l sintassi
l assegnare significati alle espressioni linguistiche semplici e complesse l semantica (lessicale e composizionale)
l usare le frasi nei contesti, situazioni e modi appropriati agli scopi comunicativi l pragmatica
17
Natural Language Processing (NLP) Alcune applicazioni
l Correttori ortografici, grammaticali, ecc. l Recupero “intelligente” di documenti
l Information Retrieval l Riconoscimento automatico del parlato
l Automatic Speech Recognition (ASR) l Sintesi automatica della voce
l Text-To-Speech (TTS) l Estrazione automatica di informazione da testi
l Information Extraction (IE) l Interrogare documenti attraverso domande in linguaggio naturale
l Question Answering (QA) l Traduzione (semi)-automatica di testi
l Machine translation l Interazione (conversazione) uomo-macchina multimodale
Computer che parlano e AI
18
riconoscere la voce e dialogare
rispondere a domande
tradurre
L’alba di una nuova era … ovvero il “ritorno” dell’AI
20
traduzione automatica
NLP - traduzione automatica
… ma si (ci) fanno capire
22
NLP - question-answering Watson, sistema di Question-
Answering dell’IBM
Nel febbraio 2011 ha sconfitto i campioni di Jeopardy!
Watson ha accesso a centinaia di milioni di documenti da cui
estrae le informazioni per rispondere alle domande
attraverso tecniche di NLP
23
HAL e Samantha sono ancora lontani, ma …
l Molti applicativi di NLP sono ormai disponibili (anche commercialmente) come componenti di sistemi di AI: l crescente impatto sociale l notevole impatto tecnologico ed
economico (Ingegneria del Linguaggio) l nuovi strumenti dotati di “capacità
linguistiche” a disposizione per l’analisi dei dati linguistici e per l’ausilio nella gestione e nel trattamento dell’informazione