linguistica computazionale - elearning.humnet.unipi.it · 2 obiettivi del corso l introduzione ai...

23
27 settembre 2016 Linguistica Computazionale

Upload: trinhliem

Post on 29-Aug-2019

219 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

27 settembre 2016

Linguistica Computazionale

Page 2: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

2

Obiettivi del corso l  Introduzione ai principali metodi di linguistica

computazionale e di “Natural Language Processing” (NLP)

l  Docenti l  Alessandro Lenci (Dip. di Filologia, Letteratura e Linguistica) l  Felice Dell’Orletta (ILC-CNR)

Page 3: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

3

Modalità d’esame l  Prove scritte agli appelli di esame + progetto

l  la prova scritta è divisa in 2 parti, che possono essere date simultaneamente o in appelli diversi

l  il progetto deve essere svolto INDIVIDUALMENTE l  Le prove scritte possono essere sostenute come prove in

itinere l  NB: SOLO PER FREQUENTANTI

l  Per superare l’esame è necessario conseguire almeno 18/30 in ciascuna delle prove scritte + idoneità sul progetto l  il voto d’esame è dato dalla media dei voti delle prove scritte + bonus

per il progetto (1 o 2 punti)

Page 4: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

4

Esercitazioni di laboratorio l  Mercoledì 8.30 – 10.00

l  Laboratorio M - Polo Fibonacci l  chi non possiede un account deve farne richiesta al Centro di

Calcolo presso il Polo Fibonacci

l  Inizio: Mercoledì 28 settembre l  Temi delle esercitazioni

l  introduzione a Natural Language Toolkit (NLTK) l  espressioni regolari l  estrazione ed analisi di dati linguistici da corpora l  esercizi di statistica del testo l  annotazione linguistica automatica del testo con NLTK

Page 5: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

5

Esercitazioni di laboratorio l  Esperimento di annotazione semantica

l  annotazione semantica di Named Entities in testi della pubblica amministrazione, nell’ambito del progetto SEMPLICE

l  l’annotazione verrà realizzata attraverso un’interfaccia web sviluppata da ETI3

l  Assistente l  Dott. Lucia Passaro

Page 6: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

6

Informazioni e contatti l  Ricevimento

l  Prof. Alessandro Lenci l  giovedì 15.00-17.00

Dipartimento di Filologia, Letteratura e Linguistica, Via Santa Maria 36 e-mail: [email protected] tel.: 050-2215638 www: http://colinglab.humnet.unipi.it/people/lenci/

l  Dott. Felice Dell’Orletta l  venerdì16.00-18.00

Istituto di Linguistica Computazionale CNR, Via Moruzzi 1 (stanza 21) e-mail: [email protected] tel.: 050-3152847

l  E-learning l  Moodle: http://polo4.elearning.unipi.it/ l  informazioni sul corso, materiale didattico, avvisi, prove di esame, ecc.

l  NB: tutti gli studenti del corso devono registrarsi

Page 7: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

7

Testi di esame

l  A. Lenci, S. Montemagni, V. Pirrelli (2005), Testo e Computer. Elementi di linguistica computazionale, Roma, Carocci

l  D. Jurafsky e J.H. Martin (2008), Speech and Language Processing, (second edition), Prentice Hall l  capp. 1, 2, 3, 4.10-4.11, 5.1-5.4, 12, 13.1-13.3, 13.5, 19

l  S. Bird, E. Klein, E. Loper (2009), Natural Language

Processing with Python, O’Reilly (liberamente scaricabile da http://www.nltk.org/book/) l  capp. 1, 2, 3, 7, 8

Page 8: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

Crediti e programmi

l  12 CFU l  tutte le lezioni ed esercitazioni l  due prove in itinere l  progetto finale

l  creazione di un corpus, analisi computazionale con NLTK e annotazione semantica di Named Entities

l  testi di esame l  Testo e Computer l  Speech and Language Processing

8

Page 9: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

Cosa è la linguistica computazionale?

l  La linguistica computazionale è un settore di ricerca che vede coinvolti linguisti, informatici e scienziati cognitivi per raggiungere due obiettivi principali: l  applicare la matematica e l'informatica allo studio del

linguaggio umano e dei testi l  dotare i computer della capacità di usare il linguaggio

come noi 9

linguaggio naturale

Page 10: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

La linguistica computazionale a Pisa l  Pisa è stata la culla della linguistica computazionale italiana

ed è tuttora uno dei maggiori centri di ricerca in questo settore

10

CoLing Lab (Uni. Pisa) http://colinglab.fileli.unipi.it

ILC-CNR http://www.ilc.cnr.it/

Page 11: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

Big (linguistic) data

Page 12: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

12

Cosa può fare il computer per lo studio del linguaggio? l  Come studiare …

l  la distribuzione della parole in un autore letterario l  i mutamenti semantici delle parole l  le differenze linguistiche tra vari registri (es. linguaggio scritto e

parlato) l  il lessico e le costruzioni grammaticali di una lingua

l  Digital humanities l  quantità crescenti di testi sono disponibili in formato digitale per la

ricerca linguistica l  i testi digitali sono fonti di dati per la ricerca linguistica e filologica l  è necessario disporre di metodologie per la rappresentazione, la

ricerca e l’analisi dei dati testuali digitali

Page 13: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

13

Analisi computazionale dei dati linguistici l  La linguistica computazionale permette di affrontare

queste ricerche attraverso l  metodi e strumenti informatici per la rappresentazione e

gestione di grandi quantità di dati linguistici l  rappresentazione digitale del testo l  codifica e annotazione di informazione linguistica

l  ricerche ed esplorazioni avanzate del testo l  ricerche di informazioni testuali e dati linguistici l  visualizzazione dell’informazione nel testo

l  metodi matematici e statistici l  analisi quantitative dei dati linguistici

l  Le potenzialità “standard” del computer possono essere usate per la gestione e l’analisi dei dati linguistici… ma non bastano!

Page 14: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

14

Il computer non conosce il linguaggio naturale ovvero

non ha alcuna conoscenza riguardo alla sua struttura

Analisi computazionale dei dati linguistici

l  forme superficiali vs. lessemi: l  NAVIGARE {navigo, navighi, … , navigava, … , navigato …}

l  ambiguità morfosintattiche l  stato {stato, m.s. -> STATO, N}

{stato, part. pass -> ESSERE, V} {stato, part. pass -> STARE, V}

l  ambiguità semantiche l  navigare {andare per mare}

{visitare pagine web su Internet}

Page 15: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

15

Cosa può fare il linguaggio per il computer? l  Il Natural Language Processing (NLP) o Trattamento

Automatico del Linguaggio (TAL) cerca di dotare il computer di conoscenze linguistiche allo scopo di: l  progettare programmi e sistemi informatici che

assistano l’uomo in “compiti linguistici” l  traduzione l  gestione dei testi, ecc. l  interazione con essere umani in maniera “naturale” l  estrazione automatica di informazioni da testi o da altri media

Page 16: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

16

Natural Language Processing (NLP) l  Quali conoscenze linguistiche deve possedere il computer?

l  articolare e decodificare i suoni di una lingua l  fonetica articolatoria e acustica, fonologia, prosodia, ecc.

l  conoscere le parole di una lingua, la loro struttura e la loro organizzazione l  lessico e morfologia

l  comporre le parole in espressioni linguistiche complesse (sintagmi, frasi, ecc.) l  sintassi

l  assegnare significati alle espressioni linguistiche semplici e complesse l  semantica (lessicale e composizionale)

l  usare le frasi nei contesti, situazioni e modi appropriati agli scopi comunicativi l  pragmatica

Page 17: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

17

Natural Language Processing (NLP) Alcune applicazioni

l  Correttori ortografici, grammaticali, ecc. l  Recupero “intelligente” di documenti

l  Information Retrieval l  Riconoscimento automatico del parlato

l  Automatic Speech Recognition (ASR) l  Sintesi automatica della voce

l  Text-To-Speech (TTS) l  Estrazione automatica di informazione da testi

l  Information Extraction (IE) l  Interrogare documenti attraverso domande in linguaggio naturale

l  Question Answering (QA) l  Traduzione (semi)-automatica di testi

l  Machine translation l  Interazione (conversazione) uomo-macchina multimodale

Page 18: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

Computer che parlano e AI

18

riconoscere la voce e dialogare

rispondere a domande

tradurre

Page 19: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

L’alba di una nuova era … ovvero il “ritorno” dell’AI

Page 20: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

20

Google

traduzione automatica

NLP - traduzione automatica

Page 21: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

… ma si (ci) fanno capire

Page 22: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

22

NLP - question-answering Watson, sistema di Question-

Answering dell’IBM

Nel febbraio 2011 ha sconfitto i campioni di Jeopardy!

Watson ha accesso a centinaia di milioni di documenti da cui

estrae le informazioni per rispondere alle domande

attraverso tecniche di NLP

Page 23: Linguistica Computazionale - elearning.humnet.unipi.it · 2 Obiettivi del corso l Introduzione ai principali metodi di linguistica computazionale e di “Natural Language Processing”

23

HAL e Samantha sono ancora lontani, ma …

l  Molti applicativi di NLP sono ormai disponibili (anche commercialmente) come componenti di sistemi di AI: l  crescente impatto sociale l  notevole impatto tecnologico ed

economico (Ingegneria del Linguaggio) l  nuovi strumenti dotati di “capacità

linguistiche” a disposizione per l’analisi dei dati linguistici e per l’ausilio nella gestione e nel trattamento dell’informazione