fmz elaborazione del linguaggio naturale fabio massimo zanzotto

52
FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

Upload: adolfo-tucci

Post on 02-May-2015

219 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Elaborazione del linguaggio naturale

Fabio Massimo Zanzotto

Page 2: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Part seven

Modular and Robust parsing

Page 3: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Our Aim

Lines of development

Grammatical Representation Power: • CFG (context free grammars) DCG• Feature Structures• Tree Adjoining Grammars (TAG)

Grammar Use: • CYK• Chart and Early Algorithm

Page 4: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Lesson learnt

• Lexicon (i.e. words) is a very important piece of the Language and of the language model

• Words carry meaning and govern the syntactic structure of sentences

Page 5: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Limits of the previous approaches

• When parsing or:– one interpretation is active at each processing

step (for example, DCG in Prolog)– all interpretations are active (for example, CYK

or Chart Parsing)

• Processing complexity depends on the number of active interpretation

Page 6: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Observation

Question:is it possible to fix some ambiguity in early step of the analysis?

lamangia... ...

Art Prn

Page 7: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Decomposizione del processo

• Processori Pi che si occupano di specifici fenomeni accoppiati con una possibile funzione di disambiguazione basata su informazioni locali

P1 Pn…P1 Pn

Page 8: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Decomposizione del processo

• Ricerca di obbiettivi (o rappresentazioni) intermedi raggiungibili (e utili)– Criteri psicolinguistici– Requisiti computazionali – Esigenze applicative

• È possibile trovare soluzioni approssimate per problemi più semplici?

Page 9: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Decomposizione del processo

L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica, ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto.

Page 10: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Decomposizione del processo

• Esiste un livello di aggregazione nel testo che si pone tra parole e frasi.

• Gli aggregati non si sovrappongono (i.e. non sono “ricorsivi”)

Page 11: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: esempio di stratificazione di un albero

L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.

A N Adj V V A N Adj PA N Adj N

NP AdjP

VP

NP AdjP NP

PPNPNP

NP

VP

S

Page 12: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: esempio di stratificazione di un albero

L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.

A N Adj V V A N Adj PA N Adj N

NP AdjP

VP

NP

AdjP

NP

PP

NP

NP

VP

S

Page 13: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: esempio di stratificazione di un albero

L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.

A N Adj V V A N Adj PA N Adj N

NP AdjP

VP

NP AdjP NP

PPNPNP

VP

S

Page 14: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: esempio di stratificazione di un albero

L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.

A N Adj V V A N Adj PA N Adj N

NP AdjP

VP

NP NP

PPNP

Page 15: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Decomposizione del processo

• Chunk: – livello intermedio di rappresentazione– giustificato psico-linguisticamente (Abney,

1991)

• Definizione (intuitiva) di chunk: Sequenza di parole

• fortemente connessa • con un unico portatore di significato• costante alle differenti interpretazioni

Page 16: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

I medici operano un paziente al femore : aveva 105 anni.

Decomposizione del processo

• LESSICALIZZAZIONE: Controllo dell’ambiguità– verbi controllano semantica delle proposizioni– quindi controllano le relazioni sintattiche

Page 17: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

I medici operano un paziente al femore : aveva 105 anni.

Decomposizione del processo

• Controllo dell’ambiguità– verbi controllano semantica delle proposizioni– quindi controllano le relazioni sintattiche

SUBJ operare OBJ PP(a)

Page 18: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Definizione di chunk

• Bottom-up:Una sequenza di parole che rappresenta il nucleo non ricorsivo di sintagmi nominali, preposizionali, verbali ed aggettivali

• Top-down:Una sequenza di parole le cui relazioni non sono influenzate dal comportamento dei verbi

Page 19: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunk: osservazioni

Chunk nuclei “non ricorsivi”* di sintagmi particolari

Chunksono riconoscibili con automi a stati finiti

* “non ricorsivi” = ricorsivi destri che non rimandano a sintagmi superiori

Page 20: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: prototipi

Prototipo:

• regola per catturare chunk

• esprimibile utilizzando informazione di POS tags tramite – espressioni regolari/trasduttori (Fastus,

Alembic, Chanod&Ait) – marker iniziale e finale (ACL, 2001)

Page 21: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: prototipi

Esempi di espressioni regolari:

NPK:

Art N | Art A N

VPK:

V | V V

PPK:

P Art N | P Art A N

Page 22: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: prototipi

Esempi di marker iniziale e finale:

NPK:

MI: Art MF: N

VPK:

MI: V MF: V

PPK:

MI: P MF: N

Page 23: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Chunking: considerazioni

• Identificazione e classificazione:– possibile nel livello sintattico– risolvibile con macchinari semplici (i.e. FSA)

• La grammatica (ovvero i prototipi) – indipendente dal dominio di applicazione

• Domanda: Qualora fosse la sola informazione estratta, sarebbe utile per una qualche applicazione?

Page 24: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Prerequisiti

• Chunking– Part-of-speech tagging

• Riconoscimento dei legami verbali:– Individuazione dei limiti delle proposizioni

(clause boundary recognition)

Page 25: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Part-of-speech tagging

• Definizione del problema

w1…wn t1…tn

Strategies to use with questions you cannot answer

NNS TO VB IN NNS PRP MD VB

Page 26: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Part-of-speech tagging

• Origini (1989) sotto la spinta dell’Information Extraction alla Message Understanding Conference

• Approcci– approcci simbolici (regole trasformazionali,

Brill 94)– approcci statistici (a seguire)

Page 27: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

POS Tagging basato sulle trasformazioni (Brill, 94)

Dato un primo tagging (dizionario con tag più frequenti),

applicare regole di trasformazione fino a che l’errore non diminuisca sotto una soglia

Page 28: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Trasformazioni

• Regole di riscritturat1 t2 se <condizione nello spazio circostante

(triggering environment)>

• EsempioNN VB se il tag precedente è TO

Strategies to use with questions you cannot answer

NNS TO NN IN NNS PRP MD VB

TO NN

VB

Strategies to use with questions you cannot answer

NNS TO VB IN NNS PRP MD VB

Page 29: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Trasformazioni: Schemi dei triggering environments

ti-3 ti-2 ti-1 ti+3ti+1 ti+2

**

*

******

ti

Page 30: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Trasformazioni: algoritmo di apprendimento

• Quali trasformazioni?

• Quale ordine di applicazione?

Page 31: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Trasformazioni: algoritmo di apprendimento

C0:= Corpus con tag più frequenti

for k:=0 step 1 do

v:= trasformazione n che minimizza E(n(Ck))

if (E(Ck) - E(n(Ck))) < then break

Ck+1 :=v(Ck)

tk+1:= v

end

OUTPUT: sequenza t1, …, tk

Page 32: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

POS Tagging basato sulle trasformazioni

• Tagging delle parole sconosciute basato sulla morfologia– Tutte le parole sconosciute vengono taggate

con NN– Il tag viene cambiato seguendo alcune regole

trasformazionali morfologicheEs: NN NNS la parola termina con -s

Page 33: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

POS Tagging basato sulle trasformazioni

Qualità dell’attività di POS Tagging dipende:

• dall’insieme dei tag obbiettivo

• dalla possibilità di recuperare informazione disambiguante nei contesti di attivazioneEs.: che in italiano (pronome/congiuzione)

• dal materiale di apprendimento

Page 34: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

( )(

)(

)

Clause boundary recognition

L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica , ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto .

• Definizione del problema

Page 35: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Clause boundary recognition

• Proposizioni sono utili per:– Conversione Text-to-speech – Allineamento di testi – Traduzione automatica

• Particolarità– Ricorsività non presente nei chunks

Page 36: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Clause boundary recognition

Inf(S2)

Inf(S1)

[ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American]

contribute-NP-PP(to)value-NP-PP(at)

Page 37: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Clause boundary recognition

Inf(S2)

Inf(S1)

[ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American]

contribute-NP-PP(to)value-NP-PP(at)

Page 38: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Clause boundary recognition

Inf(S2)

Inf(S1)

[ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American]

contribute-NP-PP(to)value-NP-PP(at)

Page 39: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Clause boundary recognition

• Algoritmo:– Ipotesi iniziale di

• minima estensione delle proposizioni

• gerarchia derivata

– Finché ci sono verbi da analizzare (da destra verso sinistra):

• Riconoscere il legami verbali

• Espandere l’estensione minima della proposizione

Page 40: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Controllo del processo

• Passi analisi:– POS Tagging– Chunking – Clause Boundary Recognition – Verb Argument Detection

Page 41: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Controllo del processo

• Situazione problematica: necessità di definire i tipi di dati trattati

P1 Pn……P1 Pn

Page 42: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Controllo del processo

• Situazione problematica: necessità di definire i tipi di dati trattati

P1

Pn

… Giudice

Page 43: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Formalismo di rappresentazione

Requisiti:

• Rappresentazione di analisi parziali

• Rappresentazione di legami distanti

• Information hiding– rendere disponibile la sola informazione

necessaria …– ma capace di esprimere tutti i vincoli correnti

Page 44: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Formalismo di rappresentazione

• Rappresentazione a costituenti– Context-free Grammar (Tree)

– Well Formed Substring Table (WFST): chart

– Tree-Adjoint Grammar (TAG)

• Rappresentazione a dipendenze– Link Grammar

• Rappresentazione miste– Extended Dependency Graph (XDG)

Page 45: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

XDG: eXtended Dependency Graph

• an XDG is a graph:

XDG=(constituents,dependencies)

Nice property: allow to store persistent ambiguity (for interpretations projected by the same nodes)

• Each constituent has:– a potential governor– a grammatical head

Page 46: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Modular approach

• Syntactic parser SP(S,K)=I SP(S)=I

• Syntactic parsing module:Pi(Si,Ki)=Si+1 Pi(Si)=Si+1

• Modular syntactic parserSP = Pn... P2P1

Page 47: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Classification of parsing modules

Pi(XDGi,Ki)=Pi(XDGi)=XDGi+1

• The classification is performed according to:– the type of information K used– how they manipulate the sentence

representation

Page 48: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Decomposizione del processo

Principi:

• Scegliere i fenomeni trattati in ogni livello

• Scegliere l’algoritmo migliore per ogni task

• Scegliere un opportuno formalismo di rappresentazione

Page 49: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Back to the beginning...

conosenza simbolica

conosenza simbolica incerta

abilità linguistica

apprendimento

“Tutti i marinai amano una ragazza”

x Marinaio (x).( y Ragazza(y) Ama (x, y))

y Ragazza(y).(x Marinaio (x) Ama (x, y)) ?

Page 50: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Interpreting Language Through Syntax

Assunzione di Chomsky: i differenti significati hanno differenti strutture sintattiche “profonde”

Esempio: Luigina ha chiesto in prestito la borsetta di pelle di nonna.

Possibili Costruzioni Sintattiche in alberi:...(la borsetta di (pelle di nonna))...(la (borsetta di pelle) di nonna)

Page 51: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

Where we worked

Lines of developmentGrammatical Representation Power: • CFG (context free grammars) DCG• Feature Structures• Tree Adjoining Grammars (TAG)Grammar Use: • CYK• Chart and Early Algorithm• Modular Parsing and Cascades of Different Theories

(XDG)

Page 52: FMZ Elaborazione del linguaggio naturale Fabio Massimo Zanzotto

FMZ

NLP Applications

• Information Extraction

• Q&A

• Ontological Q&A

• Textual Entailment