valency lexicon of czech verbs

27
Valency Lexicon of Czech Verbs Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK

Upload: casey-hopkins

Post on 03-Jan-2016

42 views

Category:

Documents


2 download

DESCRIPTION

Valency Lexicon of Czech Verbs. Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK. Osnova. Úvod Re šeršní část Teoretická část Praktická část Závěr. Úvod a motivace. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Valency Lexicon of Czech Verbs

Valency Lexicon of Czech Verbs

Zdeněk Žabokrtský

obhajoba disertační práce

29. září 2005

ÚFAL MFF UK

Page 2: Valency Lexicon of Czech Verbs

Osnova

• Úvod

• Rešeršní část

• Teoretická část

• Praktická část

• Závěr

Page 3: Valency Lexicon of Czech Verbs

Úvod a motivace

• valence – schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury

– stát – někde, o někoho, za něco, za něčím, při někom…

– odpovídat – někomu na něco, za někoho, něčemu

– brát – něco někomu, za něco, roha, zasvé,…

• valenci lexikální jednotky nelze obecně předpovědět pro automatické zpracování potřebujeme slovník

• předpokládané možnosti využití valenčního slovníku– lemmatizace, tagging

– parsing

– word sense disambiguation

– strojový překlad...

• hlavní cíl předkládané práce: vytvořit dostatečně rozsáhlý, kvalitní valenční slovník českých sloves pro využití v NLP

Page 4: Valency Lexicon of Czech Verbs

REŠERŠNÍ ČÁST

Page 5: Valency Lexicon of Czech Verbs

Zkoumání valence v češtině

• dva dominující teoretické směry– Teorie větných vzorců [Daneš,Hlavsa-87]– Funkční generativní popis [Sgall-67] [Panevová-80]

• existující data– valenční slovník BRIEF [Pala,Ševeček-97]– Český syntaktický slovník [Skoumalová-01]– Slovesa pro praxi [Svozilová et al.-97]– PDT-VALLEX [Hajič et al.-03]– VerbaLex [Hlaváčková,Horák-05]

Page 6: Valency Lexicon of Czech Verbs

Zkoumání valence v jiných jazycích

• angličtina– [Fillmore-02] FrameNet– [Levin-93]– [Kingsbury-Palmer-02]

PropBank

• němčina– [Helbig,Schenkel-69]– [Erk et al.-03] SALSA

• polština– [Polanski-92]

• slovenština– [Nižníková,Sokolová-98]

• ruština– [Silnickij-99]– [Mel’čuk,Žolkovskij-84]– ETAP [Boguslavsky-04]

• bulharština– [Popova-87]

• francouzština, holandština– [van den Eynde,Mertens,03]

• angličtina-japonština– [Bond,Shirai-97]

Page 7: Valency Lexicon of Czech Verbs

TEORETICKÁ ČÁST

Page 8: Valency Lexicon of Czech Verbs

Struktura slovníku

• základní termíny: – lexém– lexikální jednotka– lemma– m-lemma

• v našem slovníku:– lexikální jednotka = formálně popsaný valenční rámec + neformálně

popsaný význam + další atributy

• při návrhu makrostruktury slovníku je třeba zohlednit řadu jazykových jevů:– reflexivita (brát / brát se / brát si )– varianty lemmat (myslet / myslit )– homografie (žít I / žít II)– vidové „dvojice“ (vzít / brát / brávat )– determinovaná slovesa ( jít / chodit)

lexical formslexical units

lexeme

give

gave

givengives

give-1 give-2

give-3

give-4give-5

lexical formslexical units

lexeme

give

gave

givengives

give-1 give-2

give-3

give-4give-5

Page 9: Valency Lexicon of Czech Verbs

Struktura slovníkového hesla

• pro každou LU – valenční rámec – posloupnost slotů– další atributy: příklad užití, glosa, typ kontroly ...

• pro každý slot v rámci– funktor + obligatornost– povrchová forma

Page 10: Valency Lexicon of Czech Verbs

Valence v syntaktických stromech:

dvouvrstvý model valence

• zavedení termínů pro explicitní popis výskytů rámců na tektogramatické a analytické rovině– (deep or surface) frame evoker– (deep or surface) frame slot filler– (deep or surface) frame instance

• deep/surface – ve stylu t-roviny a a-roviny PDT 2.0

• zavedení termínů pro koordinační struktury– direct vs. effective children/parents/subtree root– direct vs. terminal coordination member

Page 11: Valency Lexicon of Czech Verbs

Surface vs. deep frame evoker (1)

(c)

(a)

(b)

Jan

miluje

Marii Jan

milovat

Marie

Marie se mu

směje

Marie

smát_se

#PersPron

Jan

milovat

Marii Jan

milovat

Mariebude

Page 12: Valency Lexicon of Czech Verbs

Surface vs. deep frame evoker (2)

(d) Jan dal

Marii

a

Petrovi hrušku

jablko

Jandát

Marii

a

jablko

dát

Petr hruška

(g)

(e)

(f)

Jan

zpívat

Marii

ale

nebude

bude Jan

zpívat

Marii

ale

zpívat

#Neg

Jan

a

poslouchatbude

hudbu

psát

dopis

Jan

a

poslouchat

hudba

psát

dopis

Jan

bojí

se smát Jan

bát_se

smát_se

#Cor

Page 13: Valency Lexicon of Czech Verbs

Surface vs. deep frame filler (1)

Jan

potkal

bratra

svého mladšího

(a)

(b)

(c)

Jan

potkat

bratr

#PersPronmladý

Jan

potkal

a

Marii Petra

Jan

potkat

a

Marie Petr

Jan

čekal

na

Marii

Jan

čekat

Marie

Page 14: Valency Lexicon of Czech Verbs

Surface vs. deep frame filler (2)

(d)

(e)

(f)

Jan

slíbil

že

přijde

Jan

slíbit

přijít

#PersPron

Jan

čekal

naa

Marii Petra

Jan

čekat

a

Marie Petr

Jan

čekat

a

Marie Petr

Jan

čekal

na

a

Marii Petra

na

Page 15: Valency Lexicon of Czech Verbs

• pozorování: u řady sloves páry velmi blízkých LU– naložit vůz cementem – cement na vůz– odevzdat nález policii – na policii– ukradl bance peníze – peníze z banky– vyčistit šaty od bláta – bláto z šatů– osázet park stromy – stromy do parku– vyjít na kopec – vyjít kopec– oloupat slupku z jablka – jablko

• předpoklad: jde o pravidelné transformace (pravidelné pro skupinu sloves), jejichž znalost lze využít ke snížení redundance slovníku

• trojí projev alternace– změna valenčního rámce– změna lexikálního významu– změna SFE

Alternace

Page 16: Valency Lexicon of Czech Verbs

Alternační model valenčního slovníku

lexical formslexical units

lexeme

………

BLU DLU

DLUDLU

BLU DLU

BLU

CLU

CLU

CLU

• zavedení nových termínů– základní lex. jednotka (BLU)

– odvozená lex. jednotka (DLU)

– shluk lex. jednotek (CLU)

• dvě formy slovníku

– minimální (BLU+alternace)

– expandovaná (BLU+DLU)

Page 17: Valency Lexicon of Czech Verbs

PRAKTICKÁ ČÁST

Page 18: Valency Lexicon of Czech Verbs

Anotační schéma VALLEXu

• výběr sloves ke zpracování

• prostředí pro ruční editace slovníkových hesel

• nástroje umožňující využití existujících jazykových zdrojů

(tradiční slovníky, vzorek z ČNK...)

• logická struktura slovníku (mikrostruktura a makrostruktura)

• fyzická struktura slovníku - datové formáty

• konverze mezi formáty

• nástroje pro vyhledávání

• nástroje pro testování konzistence slovníku

Page 19: Valency Lexicon of Czech Verbs

Výběr sloves

• postupné zpracování v dávkách po několika stovkách sloves (resp. m-lemmat)

• hlavní kritérium – četnost podle ČNK

• kumulativní pokrytí slovesných m-lemmat v ČNK:

Page 20: Valency Lexicon of Czech Verbs

Anotační prostředí• primární podoba hesel – jednoduchý řádkově-orientovaný

textový formát (regulární jazyk)• editace v textovém editoru WinEdt• režim pro zvýrazňování syntaxe

Page 21: Valency Lexicon of Czech Verbs

Příprava slovníku pro publikaci

primarytextfiles

vallex.xml

HTML files

vallex.tex vallex.pdf

txt2xml.plxml2html.pl

xml2latex.pllatex,dvips,ps2pdf

Page 22: Valency Lexicon of Czech Verbs

VALLEX 1.0

• první zveřejněná verze valenčního slovníku, podzim 2003

• autoři hesel: Markéta Lopatková, Karolína Skwarska, Václava

Benešová

• cca 1400 sloves (cca 1000 m-lemmat), 4000 valenčních rámců

• distribuce – slovník je zdarma ke stáhnutí po zaregistrování na

Internetu:

http://ckl.mff.cuni.cz/zabokrtsky/vallex/1.0

• neomezená licence pro výzkumné a výukové nekomerční

účely

Page 23: Valency Lexicon of Czech Verbs

Možnosti vyhledávání ve VALLEXu

• v primárním textovém formátu

– během anotace přímo ve WinEdt

– vyhledávací WWW interface založený na regulárních výrazech

• v HTML verzi (podle vybraných kritérií)

• v XML verzi (např. pomocí XPath)

Page 24: Valency Lexicon of Czech Verbs

Změny od vydání VALLEX 1.0

• kvalitativní změny (VALLEX XML, verze B)– přechod na novou terminologii (lexémy, lexikální

jednotky...)– sloučení vidových protějšků– připraveno na alternační model

• kvantitativní změny – současná (interní) verze VALLEX 1.5:– 1624 lexémů (1841 m-lemmat)– 4414 lexikálních jednotek

Page 25: Valency Lexicon of Czech Verbs

ZÁVĚR

Page 26: Valency Lexicon of Czech Verbs

Hlavní přínos práce

(1) implementace anotačního schématu, zveřejnění VALLEX 1.0 (nyní cca 130 zaregistrovaných uživatelů)

(2) doplnění teoretického modelu

• upřesnění užívaných termínů

• zavedení nových termínů pro popis instancí valenčních rámců v závislostních stromech

• alternační model slovníku

(3) přehled dalších projektů souvisejících s valencí

Page 27: Valency Lexicon of Czech Verbs

Další využití dat/zkušeností/nástrojů

– PDT-VALLEX [Hajič-03]

– VerbaLex [Hlaváčková,Horák-05]

– švédsko-český slovník verbonominálních konstrukcí

[Cinková,Žabokrtský-05]

– VALEVAL [Bojar et al.-05]