elaborare il linguaggio naturale cristina bosco (bosco@di.unito.it) corso di informatica applicata...

Post on 02-May-2015

223 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Elaborare il linguaggio naturale

Cristina Bosco(bosco@di.unito.it)

Corso di Informatica applicata alla comunicazione multimediale

Facoltà di Lingue 23/2/2010

2 Problemi nell’elaborare il

linguaggio• Problema 1:Il linguaggio contiene molte ambiguità

che rendono difficile elaborarlo • Problema 2:Il linguaggio è usato sovente in forma

“non corretta”

Problema 1

Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dell’ambiguità

MA NON BASTA (quand’anche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore

Problema 2• Esempio:in inglese il soggetto precede il

verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo

QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE

Elaborare il linguaggio

• Raffinare le tecniche di elaborazione • Applicare il trattamento a testi

“ristretti” (ad es. come genere)• Sviluppare risorse linguistiche di

grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche

Approccio corpus-based

• Utilizzato dai linguisti dalla fine dell’800 e tutt’ora molto diffuso

• Consiste nell’apprendere dal linguaggio le regole ed irregolarità del linguaggio

Approccio corpus-based

Esempio: nel parsing, di fronte all’ambiguità e

quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate

Approccio corpus-based

In pratica:si prende un campione di linguaggio, cioè un

insieme di frasi = CORPUSsi cercano nel corpus le strutture linguistiche

e le loro probabilità = BASE di CONOSCENZA

se si incontra una struttura ambigua si cerca nella base di conoscenza l’informazione utile per costruire la rappresentazione più probabile della struttura

Un progetto reale: TUT

•Obiettivo: sviluppare una risorsa

linguistica, una banca di alberi sintattici per l’italiano

Fasi di sviluppo del progetto

•Selezione dei testi da annotare

•Definizione dello schema di annotazione

•Applicazione dello schema al corpus di testi (validità e consistenza)

Selezione di testi in TUT

• 45% testi da giornali quotidiani e riviste

• 45% testi dal codice civile• 10% testi da un corpus

multilingue della CE

ES: corpora balancing

TEXTS fromPRAGUE newspapers, scientific and

economic journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Definizione dello schema di

annotazione•Scelta del formalismo

•Scelta delle informazioni e strutture da rappresentare

Struttura sintattica: scelta tra 2 aspetti

• L’organizzazione delle unitá della frase (sintagmi e constituent structure)

• La funzione degli elementi della frase (relazioni grammaticali e relational structure)

Relational structure

•Le parole della frase svolgono funzioni diverse

•Le funzioni sono espresse in termini di relazioni grammaticali

Giorgio

ama

Maria

SUBJ OBJ

Relational structure

Constituent structure

Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi

ES: constituents

Giorgio ama Maria

Nome-pr Nome-pr Verbo

VP

S

NP NP

Constituent structure

(S(NP ( NOME Giorgio))(VP (VERBO ama)

(NP (NOME Maria))

)

)

Constituent structure

Le relazioni tra le parole non sono tutte uguali:

“Maria leggeva un libro in biblioteca”

ES: Penn annotation

( S

( NP - SBJ (PRP I) )

( ADVP - TMP ( RB never) )

( VP (VBD had)

( NP (JJ many) (NNS clients) )

( NP - ADV (DT a) ( NN day) ))

))

NP

VP

NP

ADVP

NP

S

SBJ

TMP

PRP

RB

VBD

NNSDT

NNDTADV

ES: NEGRA annotation

S

VP

HD SB NG

MO HD OA

OC

ADV VVPP VAFIN NE NE ADV

Costituenti e relazioni

•La struttura relazionale include le informazioni relative all’

organizzazione della frase in unità

•La struttura a costituenti non include le informazioni relative alla funzione delle parole

•La struttura relazionale è più compatta

•Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue

•La struttura relazionale include la struttura argomentale

Costituenti e relazioni

La struttura argomentale

•relazioni grammaticali

•ruoli semantici

•uguali o distinti?

Le relazioni grammaticali

•Identificabili da varie proprietà

•Diverse nelle varie lingue

ES: annotation processes

MORPHO SYNT SEMPRAGUE semi-

automatic

semi-automatic

semi-automatic

NEGRA automatic interactive(probabilistic)

PENN automatic automatic (skeletal)

Processo di sviluppo del TUT

•Part Of Speech tagging automatico

•Correzione manuale del tagging

•Parsing interattivo

•Verifica e revisione

6.4. TUT application and future

• Study of the Italian word order• Extraction of grammar• Conversion in other treebank formats• …

ES: word order in Italian

(in 1200 sentences)

6.2.2 TUT relation components

• Morpho-syntactic: morpho-syntactic features such as Verb, Noun …

• Functional-syntactic: syntactic relations such as Subject, Object

• Semantic: semantic relations such as Location, Time, Cause

ES: morpho-syntactic component

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce

VERB-SUBJ

NOUN-OBJ NOUN-SUBJ

VERB-OBJ VERB

NOUN

ADV-role ADV-role

ES: morpho-syntactic component

in TUT

Empirical evidence for the morpho-syntactic component in TUT

• Given 944 different Verbs = 4169 occurrences

• 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too

ES: functional-syntactic component

Egli non è stato visto da nessuno

Egli non è stato visto da ieri

ARG

MOD

ES: functional-syntactic component

in TUT

ES: semantic component

Da qui è partito l’assalto

Succedeva dall’altra parte del mondo

I miliardi stanziati dal 1991

Era impazzito dal dolore

Trarrà beneficio dalla bonifica

LOC+FROM

LOC+IN

TIME

REASONCAUSE

SOURCE

ES: semantic component in TUT

Empirical evidence for the semantic component in TUT

• Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD

• They assume 7 different semantic values:

LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

ES: Annotation in TUT1 In (IN PREP MONO) [7;PREP-RMOD-TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]

8 il (IL ART DEF F SING) [7;VERB-OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

END

For further information:

http://www.di.unito.it/~tutreeb

(bosco@di.unito.it

http://www.di.unito.it/~bosco)

top related