morfosyntaktisk opmærkede korpora for dansk: korpus90 og korpus2000 arboretum

28
Morfosyntaktisk Morfosyntaktisk opmærkede korpora for opmærkede korpora for dansk: dansk: Korpus90 og Korpus2000 Korpus90 og Korpus2000 Arboretum Arboretum Eckhard Bick, 2000 Eckhard Bick Eckhard Bick

Upload: italia

Post on 27-Jan-2016

59 views

Category:

Documents


0 download

DESCRIPTION

Eckhard Bick. Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum. Eckhard Bick, 2000. Korpus90 og Korpus2000. blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Morfosyntaktisk opmærkede Morfosyntaktisk opmærkede korpora for dansk:korpora for dansk:

Korpus90 og Korpus2000Korpus90 og Korpus2000ArboretumArboretum

Eckhard Bick, 2000

Eckhard BickEckhard Bick

Page 2: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Korpus90 og Korpus2000Korpus90 og Korpus2000

• blandet tekst, ca. 28 mill. ord hverblandet tekst, ca. 28 mill. ord hver

• sætningsrandomiseret citatkorpussætningsrandomiseret citatkorpus

• kompileret af DSL (www.dsl.dk)kompileret af DSL (www.dsl.dk)

• morfosyntaktisk opmærket af VISL morfosyntaktisk opmærket af VISL (visl.sdu.dk)(visl.sdu.dk)

Page 3: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Korpus90/2000 på Korpus90/2000 på www.dsl.dkwww.dsl.dk

Page 4: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Korpus90/2000 på Korpus90/2000 på corp.hum.sdu.dkcorp.hum.sdu.dk

Page 5: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Korpus90/2000 som træbankKorpus90/2000 som træbankpå på corp.hum.sdu.dk/arboretum.htmlcorp.hum.sdu.dk/arboretum.html

Page 6: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Søgningsresultater Søgningsresultater somsomsyntaktisketræstruktusyntaktisketræstrukturerrer

Page 7: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Korpusopmærkning: Korpusopmærkning: DanParsDanPars

• Præprocessering: Separation, polyleksikaPræprocessering: Separation, polyleksika

• Morfologisk analysemaskine og leksikonMorfologisk analysemaskine og leksikon

• Postprocessering: Valens- og semantisk Postprocessering: Valens- og semantisk potentialepotentiale

• Morfologisk disambiguering (CG)Morfologisk disambiguering (CG)

• Syntaktisk mapping og disambiguering (CG)Syntaktisk mapping og disambiguering (CG)

• Propriums-CG, Case role-CGPropriums-CG, Case role-CG

• PSG-overbygning: ArboretumPSG-overbygning: Arboretum

Page 8: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum
Page 9: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

De mest almindelige syntaktiske De mest almindelige syntaktiske funktionerfunktioner

@SUBJ subjekt @ADVL frit adverbial

@ACC direkte (akkusativ-) objekt @PRED frit prædikativ

@DAT indirekte (dativ-) objekt @APP apposition

@PIV præositionsobjekt @>N prænominal-dependent

@SC subjektsprædikativ @N< postnominal-dependent

@OC objektsprædikativ @>A adverbiel præ-dependent

@SA subjektsrelateret argumentadverbial @A< adverbiel post-dependent

@OA objektsrelateret argumentadverbial @P< præpositions-argument

@MV hovedverbum @INFM infinitivmarkør

@AUX hjælpeverbum @VOK vokativ

Page 10: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Syntaktiske funktioner i Korpus2000: Syntaktiske funktioner i Korpus2000: sætningsniveausætningsniveau

0

500

1000

1500

2000

2500

3000

SUBJ F/S-SUBJ ACC DAT PIV SC/SA OC/OA ADVL PRED

<

>

FS

ICL

Page 11: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Syntaktiske funktioner i Korpus2000: Syntaktiske funktioner i Korpus2000: gruppeniveaugruppeniveau

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

>N, N< >A, <A P<, >P

<

>

FS

ICL

Page 12: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Syntaktiske funktioner i Korpus2000:Syntaktiske funktioner i Korpus2000:specielle funktionerspecielle funktioner

0 200 400 600 800 1000 1200 1400

>>P

APP

N<PRED

N<FUSE

KOMP<

NPHR

ADVL

CO

SUB

S<

AUX<

MV<

INFM

VOK

Page 13: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Leksikokgrafisk arbejdeLeksikokgrafisk arbejde

fx leksemer der indgår i bestemte syntaktiske sekvenser:@SUBJ> (subjekt) @MV (main verb) @<ACC (objekt)”hest” ”æde” ”hø”

opmærkning med semantiske prototyper:opmærkning med semantiske prototyper:21 aflyse <occ> (arrangementer)19 aflyse <act-c> (tallelige handlinger og aktiviteter)4 aflyse <ac> (tallelige abstrakta)4 aflyse <act> (handlinger og aktiviteter)4 aflyse <sem-l> (musikalske værker m.m.)3 aflyse <event> (hændelser)3 aflyse <sit> (situationer)

Page 14: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Selektionsrestriktioner for Selektionsrestriktioner for objekterobjekter

forflytte <Hprof>_2 (human professional)forfægte <pp>_3 (tankeprodukt)forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker)forføre <H>_3 (people)forgylde <H>_4 <Hprof>_3 (mennesker)forhale <act-c>_3 <act>_3 (handlinger og aktiviteter)forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler)forhaste <pp>_3 <sem>_3 (tankeprodukter)forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb)forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler)forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger)forkorte <per>_4 (perioder)

Page 15: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Selektionsrestriktioner for Selektionsrestriktioner for subjektersubjekter

advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner)

afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle)afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og

almindelige mennesker)afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele

frembringlelser, professionelle)affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper)affærdige <Hprof>_3afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter)afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner)afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)

Page 16: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Berømte navne omkring Y2K

<hum> <top> <civ>

<org> <inst> <party> <media>

<occ> <brand>

1. Gud Danmark Venstre VM Windows 2. Poul Nyrup

Rasmussen København Folketinget Anden Verdenskrig Linux

3. Clinton USA Politiken DM Dannebrog 4. Ligulf EU Jyllands-Posten Tour de France Explorer 5. Nyrup Europa NATO OL Deep Blue 6. Jesus Århus Socialdemokratiet EM Wap 7. Sara Tyskland SF Wimbledon Pentium 8. Bush Frankrig FN French Open HF 9. Bill Clinton Sverige Dansk Folkeparti Roskilde Festival Java 10. Ritt Bjerregaard Rusland Tele Danmark Den Kolde Krig Ny_Løn 11. Marianne Jelved Kina DR Første Verdenskrig Roundup 12. Peter Norge AGF Golfkrigen Colgate 13. Milosevic England DSB Grand Prix Bordeaux 14. Washington Odense TV 2 World Cup Danablu 15. Tue Italien Enhedslisten Giro d' Italia Word 16. Svend Auken Israel CD Australian Open WordPerfect 17. Bo Johansson London Microsoft US Open PlayStation 18. Mogens Lykketoft Paris LO Melodi Grand Prix Outlook 19. Jeltsin Brøndby Københavns

Universitet Post Danmark Rundt HTX

20. Teodor Spanien Den Danske Bank Europa Cup Cipramil

?

Page 17: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Teksttypologi: Passivkonstruktioner

• Passivfrekvens som stilmærke for Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.?kancellistil, abstraktionsniveau m.m.?

• 3,1% alle passiver, 2,3% finitte former 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiverinkl. aktiv participium, 5,9 infinitiver

• s-passiv eller blive-passivs-passiv eller blive-passiv

• leksemspecifikke passivnormaler?leksemspecifikke passivnormaler?

Page 18: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

• (a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket.Leksikaliseret S-passiv ("slås", "synes")

• (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas

• (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%.

Høj Spas/akt, neutral Spas/Bpas

• (d) Minimælk fås kun fra Arla. *Minimælk bliver fået. Lav Spas/akt, høj Spas/Bpas

• (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet. Blive-passiv kun med formelt subjekt.

• (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober.(f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift.

Være-passiv enten som s- eller som blive-passiv

Page 19: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Teksttypologi: Passivkonstruktioner

Page 20: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Foranstillede adverbier i Foranstillede adverbier i præpositionsstyrede infinitiverpræpositionsstyrede infinitiver

Rød = fokusadverbierblå = tidsadverbier

grøn = bøjede adverbier

Page 21: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Vp-indskudte adverbierVp-indskudte adverbierog deres positionspecificitetog deres positionspecificitet

Rød = attitude-adverbierblå = konjunktionelle adverbier

Page 22: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Direkte objekterDirekte objekter

form type fronted (ACC>) right of main verb (<ACC)

finite clause (FS) 5.2 % (quotes!) 12.8 % non-finite clause (ICL) 0.0 % (1 case) 5.3 %

nouns (N) 0.3 % (checked) 53.8 % proper nouns (PROP) 0.0 % (12 cases) 3.4%

relative pronouns 1.9 % - interrogative pronouns 0.5 % - (4 adverbs)

personal pronouns 1.0 % 12.0 % others 0.4 % 4.4 %

all 9.3 % 91.7 %

7,1 % i 1,1 millioner ord fra Korpus20007,1 % i 1,1 millioner ord fra Korpus2000

Page 23: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Foranstillede nominale objekter

Subtype n frequency definition interrogative 79 29.0 % at se, hvilken interesse kineserne skulle have topic 74 27.2 % Denne interesse overførte han på virksomheden

De problemer har jeg slet ikke. focus 55 20.2 % Blot 6-7 kr. vil sparekassen se som betaling

Sin spillefilmsdebut fik han i 1962 med ... fronted in verb chain

43 15.8 % ... få tyvekosterne bragt hjem ... får man billeder at se gratis ... at lære de nødvendige redskaber at kende

raised 12 4.4 % Den slags er vi jo nogle stykker der kan lide fixed 7 2.6 % Hvad udvalget af værker angår, har ... vp-internal 2 0.7% ... at min søn ingen huller havde

... hun har ingen kage bagt

Page 24: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Pronominal-ellipse i Pronominal-ellipse i relativsætningerrelativsætninger

der som zero all: 938 n % n % n % n %

SUBJ 421 44,9 175 18,7 (15) (1,6) 611 65,1 raised - - 3 0,3 - - 3 0,3 det-focus 33 3,5 10 1,1 - - 43 4,6 ACC - - 34 3,6 37 3,9 71 7,6 raised - - 7 0,7 2 0,2 9 1,0 det-focus - - - - 6 0,6 6 0,6 >>P 4 0,4 16 1,7 12 1,3 32 3,4 raised - - 7 0,7 1 0,1 8 0,9 det-focus - - - - 5 0,5 5 0,5 DAT, CS, OC - - 5 0,5 - - 5 0,5 458 48,8 257 27,4 78 8,3 793 84,5

hvor når, da zero ADVL-adv 111 11,8 10 1,1 10 1,1 131 14,0 hvorPRP PRP+hvilken 88 9,4 924 98,5 P< (ADVL) 7 0,7 1 0,1 8 0,9 hvis at hvilket >N, SUB, S< 1 0,1 4 0,1 1 0,1 6 0,6 938 100,0

Page 25: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Genus-fluktuation i danskGenus-fluktuation i dansk

(a1) Øllet var stærkt og mørkt.(a2) De drak en øl hver.(b) Det var noget godt mad, du lavede.(c) Vejen får ekstra meget trafik om morgenen.

• Hypotese: Noget/meget + utrum substantiv:Hypotese: Noget/meget + utrum substantiv:-> Projektion af +mass-> Projektion af +mass

• meget/megen er mindre markeret (50/50)meget/megen er mindre markeret (50/50)

• noget/nogen er mere markeret (1 : 6 fordeling)noget/nogen er mere markeret (1 : 6 fordeling)

Page 26: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Hypotese: konkret-abstrakt-Hypotese: konkret-abstrakt-gradientgradient

for for megetmeget og og positivpositiv nogetnoget

(a1) Jeg har ikke noget glas. (--> … at drikke af)(a2) Jeg har ikke noget krus. (--> … at drikke af)(b1) ?Jeg har noget glas. (--> materialet)(b2) *Jeg har noget krus. (--> Jeg har et krus)(c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret(c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr.(c3) *Han har nogen bil.

Page 27: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

left context noget/nogen @>N (frequency > 3 and > 10)

NEU-% left context meget/megen @>N (frequency > 4 and > 6)

NEU-%

aftensmad, ballade, creme, energi, fodbold, frugt, honning, ild, juice, kaffe, kriminalitet, morgenmad, musik, olie, selvtillid, vin

100 benzin, fodbold, føde, kaffe, sex, væske 100

fejl*, medicin 91-92 pris*, strøm, alkohol, frihed, mad, gang*,

motion, larm, luft, søvn 81-90

fart, olie, forstand, suverænitet, mælk, underholdning

71-80

opmærksomhed 50 lyst, vægt, sport, støj, spilletid, humor 60-75 plads (benplads) 30 plads, trafik, sol, tid, skade, magt, energi 51-60 tid 21 prestige, umage, musik, støtte 41-50 erfaring, viden, lovgivning 16-17 forskning, glæde, respekt,

opmærksomhed,uro, regn, debat, indflydelse, kontakt, spalteplads, træning, kritik

31-40

usikkerhed, udvikling, debat 10-11 erfaring, fritid, tale, hjælp, diskussion, fantasi, nytte, kærlighed, mening, ros,

21-30

fremtid, succes, trussel 4 sympati, smerte, tvivl, (alvor, omsorg, vilje, forståelse, opbakning, smag), viden, virak, omhu

11-20

forskel, mulighed 1-2 medieomtale,inspiration, snak, omtale 1-10 aftale, anelse, art, chance, effekt, fare, forbindelse, garanti, grad, grund, hemmelighed, hindring, hjælp, ide, interesse, katastrofe, konflikt, løsning, måde, nyhed ...

0 (blæst, interesse, lidelse), læsning, (modgang, munterhed), møje, (omtanke, opmuntring), polemik, skepsis

Page 28: Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Korpus90/2000:Korpus90/2000:http://www.dsl.dkhttp://www.dsl.dk

http://corp.hum.sdu.dk http://corp.hum.sdu.dk Arboretum:Arboretum:

~/arboretum.html~/arboretum.html**************

Morfosyntaktisk opmærkede CG-korpora tillader bl.a.:

• Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m.

• Grammatisk teksttypologi

• Kvantitative undersøgelser af syntaktiske fænomener