morfosyntaktisk opmærkede korpora for dansk: korpus90 og korpus2000 arboretum
DESCRIPTION
Eckhard Bick. Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum. Eckhard Bick, 2000. Korpus90 og Korpus2000. blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk). - PowerPoint PPT PresentationTRANSCRIPT
Morfosyntaktisk opmærkede Morfosyntaktisk opmærkede korpora for dansk:korpora for dansk:
Korpus90 og Korpus2000Korpus90 og Korpus2000ArboretumArboretum
Eckhard Bick, 2000
Eckhard BickEckhard Bick
Korpus90 og Korpus2000Korpus90 og Korpus2000
• blandet tekst, ca. 28 mill. ord hverblandet tekst, ca. 28 mill. ord hver
• sætningsrandomiseret citatkorpussætningsrandomiseret citatkorpus
• kompileret af DSL (www.dsl.dk)kompileret af DSL (www.dsl.dk)
• morfosyntaktisk opmærket af VISL morfosyntaktisk opmærket af VISL (visl.sdu.dk)(visl.sdu.dk)
Korpus90/2000 på Korpus90/2000 på www.dsl.dkwww.dsl.dk
Korpus90/2000 på Korpus90/2000 på corp.hum.sdu.dkcorp.hum.sdu.dk
Korpus90/2000 som træbankKorpus90/2000 som træbankpå på corp.hum.sdu.dk/arboretum.htmlcorp.hum.sdu.dk/arboretum.html
Søgningsresultater Søgningsresultater somsomsyntaktisketræstruktusyntaktisketræstrukturerrer
Korpusopmærkning: Korpusopmærkning: DanParsDanPars
• Præprocessering: Separation, polyleksikaPræprocessering: Separation, polyleksika
• Morfologisk analysemaskine og leksikonMorfologisk analysemaskine og leksikon
• Postprocessering: Valens- og semantisk Postprocessering: Valens- og semantisk potentialepotentiale
• Morfologisk disambiguering (CG)Morfologisk disambiguering (CG)
• Syntaktisk mapping og disambiguering (CG)Syntaktisk mapping og disambiguering (CG)
• Propriums-CG, Case role-CGPropriums-CG, Case role-CG
• PSG-overbygning: ArboretumPSG-overbygning: Arboretum
De mest almindelige syntaktiske De mest almindelige syntaktiske funktionerfunktioner
@SUBJ subjekt @ADVL frit adverbial
@ACC direkte (akkusativ-) objekt @PRED frit prædikativ
@DAT indirekte (dativ-) objekt @APP apposition
@PIV præositionsobjekt @>N prænominal-dependent
@SC subjektsprædikativ @N< postnominal-dependent
@OC objektsprædikativ @>A adverbiel præ-dependent
@SA subjektsrelateret argumentadverbial @A< adverbiel post-dependent
@OA objektsrelateret argumentadverbial @P< præpositions-argument
@MV hovedverbum @INFM infinitivmarkør
@AUX hjælpeverbum @VOK vokativ
Syntaktiske funktioner i Korpus2000: Syntaktiske funktioner i Korpus2000: sætningsniveausætningsniveau
0
500
1000
1500
2000
2500
3000
SUBJ F/S-SUBJ ACC DAT PIV SC/SA OC/OA ADVL PRED
<
>
FS
ICL
Syntaktiske funktioner i Korpus2000: Syntaktiske funktioner i Korpus2000: gruppeniveaugruppeniveau
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
>N, N< >A, <A P<, >P
<
>
FS
ICL
Syntaktiske funktioner i Korpus2000:Syntaktiske funktioner i Korpus2000:specielle funktionerspecielle funktioner
0 200 400 600 800 1000 1200 1400
>>P
APP
N<PRED
N<FUSE
KOMP<
NPHR
ADVL
CO
SUB
S<
AUX<
MV<
INFM
VOK
Leksikokgrafisk arbejdeLeksikokgrafisk arbejde
fx leksemer der indgår i bestemte syntaktiske sekvenser:@SUBJ> (subjekt) @MV (main verb) @<ACC (objekt)”hest” ”æde” ”hø”
opmærkning med semantiske prototyper:opmærkning med semantiske prototyper:21 aflyse <occ> (arrangementer)19 aflyse <act-c> (tallelige handlinger og aktiviteter)4 aflyse <ac> (tallelige abstrakta)4 aflyse <act> (handlinger og aktiviteter)4 aflyse <sem-l> (musikalske værker m.m.)3 aflyse <event> (hændelser)3 aflyse <sit> (situationer)
Selektionsrestriktioner for Selektionsrestriktioner for objekterobjekter
forflytte <Hprof>_2 (human professional)forfægte <pp>_3 (tankeprodukt)forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker)forføre <H>_3 (people)forgylde <H>_4 <Hprof>_3 (mennesker)forhale <act-c>_3 <act>_3 (handlinger og aktiviteter)forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler)forhaste <pp>_3 <sem>_3 (tankeprodukter)forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb)forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler)forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger)forkorte <per>_4 (perioder)
Selektionsrestriktioner for Selektionsrestriktioner for subjektersubjekter
advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner)
afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle)afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og
almindelige mennesker)afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele
frembringlelser, professionelle)affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper)affærdige <Hprof>_3afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter)afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner)afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)
Berømte navne omkring Y2K
<hum> <top> <civ>
<org> <inst> <party> <media>
<occ> <brand>
1. Gud Danmark Venstre VM Windows 2. Poul Nyrup
Rasmussen København Folketinget Anden Verdenskrig Linux
3. Clinton USA Politiken DM Dannebrog 4. Ligulf EU Jyllands-Posten Tour de France Explorer 5. Nyrup Europa NATO OL Deep Blue 6. Jesus Århus Socialdemokratiet EM Wap 7. Sara Tyskland SF Wimbledon Pentium 8. Bush Frankrig FN French Open HF 9. Bill Clinton Sverige Dansk Folkeparti Roskilde Festival Java 10. Ritt Bjerregaard Rusland Tele Danmark Den Kolde Krig Ny_Løn 11. Marianne Jelved Kina DR Første Verdenskrig Roundup 12. Peter Norge AGF Golfkrigen Colgate 13. Milosevic England DSB Grand Prix Bordeaux 14. Washington Odense TV 2 World Cup Danablu 15. Tue Italien Enhedslisten Giro d' Italia Word 16. Svend Auken Israel CD Australian Open WordPerfect 17. Bo Johansson London Microsoft US Open PlayStation 18. Mogens Lykketoft Paris LO Melodi Grand Prix Outlook 19. Jeltsin Brøndby Københavns
Universitet Post Danmark Rundt HTX
20. Teodor Spanien Den Danske Bank Europa Cup Cipramil
?
Teksttypologi: Passivkonstruktioner
• Passivfrekvens som stilmærke for Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.?kancellistil, abstraktionsniveau m.m.?
• 3,1% alle passiver, 2,3% finitte former 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiverinkl. aktiv participium, 5,9 infinitiver
• s-passiv eller blive-passivs-passiv eller blive-passiv
• leksemspecifikke passivnormaler?leksemspecifikke passivnormaler?
• (a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket.Leksikaliseret S-passiv ("slås", "synes")
• (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas
• (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%.
Høj Spas/akt, neutral Spas/Bpas
• (d) Minimælk fås kun fra Arla. *Minimælk bliver fået. Lav Spas/akt, høj Spas/Bpas
• (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet. Blive-passiv kun med formelt subjekt.
• (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober.(f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift.
Være-passiv enten som s- eller som blive-passiv
Teksttypologi: Passivkonstruktioner
Foranstillede adverbier i Foranstillede adverbier i præpositionsstyrede infinitiverpræpositionsstyrede infinitiver
Rød = fokusadverbierblå = tidsadverbier
grøn = bøjede adverbier
Vp-indskudte adverbierVp-indskudte adverbierog deres positionspecificitetog deres positionspecificitet
Rød = attitude-adverbierblå = konjunktionelle adverbier
Direkte objekterDirekte objekter
form type fronted (ACC>) right of main verb (<ACC)
finite clause (FS) 5.2 % (quotes!) 12.8 % non-finite clause (ICL) 0.0 % (1 case) 5.3 %
nouns (N) 0.3 % (checked) 53.8 % proper nouns (PROP) 0.0 % (12 cases) 3.4%
relative pronouns 1.9 % - interrogative pronouns 0.5 % - (4 adverbs)
personal pronouns 1.0 % 12.0 % others 0.4 % 4.4 %
all 9.3 % 91.7 %
7,1 % i 1,1 millioner ord fra Korpus20007,1 % i 1,1 millioner ord fra Korpus2000
Foranstillede nominale objekter
Subtype n frequency definition interrogative 79 29.0 % at se, hvilken interesse kineserne skulle have topic 74 27.2 % Denne interesse overførte han på virksomheden
De problemer har jeg slet ikke. focus 55 20.2 % Blot 6-7 kr. vil sparekassen se som betaling
Sin spillefilmsdebut fik han i 1962 med ... fronted in verb chain
43 15.8 % ... få tyvekosterne bragt hjem ... får man billeder at se gratis ... at lære de nødvendige redskaber at kende
raised 12 4.4 % Den slags er vi jo nogle stykker der kan lide fixed 7 2.6 % Hvad udvalget af værker angår, har ... vp-internal 2 0.7% ... at min søn ingen huller havde
... hun har ingen kage bagt
Pronominal-ellipse i Pronominal-ellipse i relativsætningerrelativsætninger
der som zero all: 938 n % n % n % n %
SUBJ 421 44,9 175 18,7 (15) (1,6) 611 65,1 raised - - 3 0,3 - - 3 0,3 det-focus 33 3,5 10 1,1 - - 43 4,6 ACC - - 34 3,6 37 3,9 71 7,6 raised - - 7 0,7 2 0,2 9 1,0 det-focus - - - - 6 0,6 6 0,6 >>P 4 0,4 16 1,7 12 1,3 32 3,4 raised - - 7 0,7 1 0,1 8 0,9 det-focus - - - - 5 0,5 5 0,5 DAT, CS, OC - - 5 0,5 - - 5 0,5 458 48,8 257 27,4 78 8,3 793 84,5
hvor når, da zero ADVL-adv 111 11,8 10 1,1 10 1,1 131 14,0 hvorPRP PRP+hvilken 88 9,4 924 98,5 P< (ADVL) 7 0,7 1 0,1 8 0,9 hvis at hvilket >N, SUB, S< 1 0,1 4 0,1 1 0,1 6 0,6 938 100,0
Genus-fluktuation i danskGenus-fluktuation i dansk
(a1) Øllet var stærkt og mørkt.(a2) De drak en øl hver.(b) Det var noget godt mad, du lavede.(c) Vejen får ekstra meget trafik om morgenen.
• Hypotese: Noget/meget + utrum substantiv:Hypotese: Noget/meget + utrum substantiv:-> Projektion af +mass-> Projektion af +mass
• meget/megen er mindre markeret (50/50)meget/megen er mindre markeret (50/50)
• noget/nogen er mere markeret (1 : 6 fordeling)noget/nogen er mere markeret (1 : 6 fordeling)
Hypotese: konkret-abstrakt-Hypotese: konkret-abstrakt-gradientgradient
for for megetmeget og og positivpositiv nogetnoget
(a1) Jeg har ikke noget glas. (--> … at drikke af)(a2) Jeg har ikke noget krus. (--> … at drikke af)(b1) ?Jeg har noget glas. (--> materialet)(b2) *Jeg har noget krus. (--> Jeg har et krus)(c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret(c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr.(c3) *Han har nogen bil.
left context noget/nogen @>N (frequency > 3 and > 10)
NEU-% left context meget/megen @>N (frequency > 4 and > 6)
NEU-%
aftensmad, ballade, creme, energi, fodbold, frugt, honning, ild, juice, kaffe, kriminalitet, morgenmad, musik, olie, selvtillid, vin
100 benzin, fodbold, føde, kaffe, sex, væske 100
fejl*, medicin 91-92 pris*, strøm, alkohol, frihed, mad, gang*,
motion, larm, luft, søvn 81-90
fart, olie, forstand, suverænitet, mælk, underholdning
71-80
opmærksomhed 50 lyst, vægt, sport, støj, spilletid, humor 60-75 plads (benplads) 30 plads, trafik, sol, tid, skade, magt, energi 51-60 tid 21 prestige, umage, musik, støtte 41-50 erfaring, viden, lovgivning 16-17 forskning, glæde, respekt,
opmærksomhed,uro, regn, debat, indflydelse, kontakt, spalteplads, træning, kritik
31-40
usikkerhed, udvikling, debat 10-11 erfaring, fritid, tale, hjælp, diskussion, fantasi, nytte, kærlighed, mening, ros,
21-30
fremtid, succes, trussel 4 sympati, smerte, tvivl, (alvor, omsorg, vilje, forståelse, opbakning, smag), viden, virak, omhu
11-20
forskel, mulighed 1-2 medieomtale,inspiration, snak, omtale 1-10 aftale, anelse, art, chance, effekt, fare, forbindelse, garanti, grad, grund, hemmelighed, hindring, hjælp, ide, interesse, katastrofe, konflikt, løsning, måde, nyhed ...
0 (blæst, interesse, lidelse), læsning, (modgang, munterhed), møje, (omtanke, opmuntring), polemik, skepsis
Korpus90/2000:Korpus90/2000:http://www.dsl.dkhttp://www.dsl.dk
http://corp.hum.sdu.dk http://corp.hum.sdu.dk Arboretum:Arboretum:
~/arboretum.html~/arboretum.html**************
Morfosyntaktisk opmærkede CG-korpora tillader bl.a.:
• Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m.
• Grammatisk teksttypologi
• Kvantitative undersøgelser af syntaktiske fænomener