mūsdienu latviešu valodas korpuss: kādam tam jābūt?

25
Mūsdienu latviešu valodas korpuss: kādam tam jābūt? Kristīne Levāne-Petrova LU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī

Upload: darius-pitts

Post on 02-Jan-2016

49 views

Category:

Documents


3 download

DESCRIPTION

Mūsdienu latviešu valodas korpuss: kādam tam jābūt?. Kristīne Levāne- Petrova LU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī. Valodas korpuss. Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Kristīne Levāne-PetrovaLU Matemātikas un informātikas institūts

Clarin seminārs 2009. gada 2. aprīlī

Page 2: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Valodas korpuss

Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam.

http://www.engl.polyu.edu.hk/corpuslinguist/corpus.htm

Mūsdienās arī: elektroniskā formā

Page 3: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Korpusa izmantošana

– Valodas pētniecībā dažādos valodas līmeņos– Leksikogrāfijā– Mācīblīdzekļu sagatavošanā– Valodas salīdzināmajā analīzē– Tulkošanā un tulkojumzinātnē– Pareizrakstības un gramatikas automatizētā pārbaudē– Psiholingvistikā un sociolingvistikā

Page 4: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Korpusa nepieciešamība Valodas pilnvērtīga attīstība nākotnē

Vispārīgie korpusi▪ Britu nacionālais korpuss (BNC) (100 milj. vārdlietojumu)

(http://www.natcorp.ox.ac.uk/)▪ Čehu nacionālais korpuss (100 milj. vārdlietojumu)

(http://ucnk.ff.cuni.cz/english/index.html)▪ Lietuviešu valodas tekstu korpuss (vairāk nekā 100 milj.

vārdlietojumu) (http://donelaitis.vdu.lt/tekstynas/) Kultūras piemineklis Noderīgs uzziņu avots

Page 5: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Ceļā uz Latviešu valodas vispārīgo korpusu (www.korpuss.lv)

Projekta “Latviešu valodaskorpusa tekstu metadatusagatavošana”īstenošana arVVA atbalstuno 01.09.2007. – 01.03.2008. (LUMII)

Publicistika50%

Zinātniski teksti10%

Populārz-inātniski

teksti5%

Saeimas stenogrammas

2%

Normatīvie akti8%

Citi5%

Daiļliteratūra20%

1 miljons vārdlietojumu

Page 6: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Korpusa projektēšana• Korpusa reprezentativitāte un līdzsvarotība

– Valodas lietojuma sfēru daudzveidības atspoguļojums (dažādi valodas paveidi)

– korpusa sastāvs (dažādu tekstu veidu, tēmu proporcijas);

• Iekļaujamo tekstu laika periods• Tekstu atlases kritēriji• Tekstu ieguves veids• Vai tiks iekļauti pilni teksti vai tekstu fragmenti?• Korpusa sistēmas izstrāde

Page 7: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Korpusa izveides kritēriji

• Korpusā iekļauti teksti no 1991. gada• Korpusā ievietoti pilni teksti• Korpusā ievietoti autentiski teksti• Korpuss līdzsvarots atbilstoši Latviešu valodas

korpusa koncepcijai

Page 8: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Vispārīgā korpusa līdzsvarotība

Publicistika50%

Zinātniski teksti10%

Populārzinātniski teksti5%

Saeimas stenogrammas

2%

Normatīvie akti8%

Citi5%

Daiļliteratūra20%

1 miljons vārdlietojumu(1991-2008)

Page 9: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Vispārīgā korpusa līdzsvarotība (2)

Nacionālie laikraksti74%

Reģionālie laikraksti26%

Nacionālo un reģionālo laikrakstu līdzsvarotība

Page 10: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Vispārīgā korpusa līdzsvarotība (3)

Diena29%

Latvijas Vēstnesis21%Dienas Bizness

13%

Neatkarīgā Rīta Avīze20%

Latvijas Avīze17%

Nacionālo laikrakstu līdzsvarotība

Page 11: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Tekstu ieguve un pārbaude

• Teksti tiek iegūti no LU MII elektronisko tekstu resursiem un tīmekļa

• Visi korpusā ievietotie teksti tiek manuāli pārbaudīti

Page 12: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Tekstu atlases kritēriji

• Teksta paveids (publicistika, daiļliteratūra u.tml.)• Teksta izdošanas/sarakstīšanas gads• Lasāmība/popularitāte (piem., zinātniski teksti,

daiļliteratūra)• Ģeogrāfija (reģionālie laikraksti) u. c.

Page 13: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Metadati

• Metadati ir dati par datiem.• TEI (Text Encoding Initiative) Header un CES

(Corpus Encoding Standard) Header standarta apakškopa

Page 14: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Korpusam pievienojamo metadatu kopa• Mapes nosaukums• Faila nosaukums• Vārdlietojumu skaits• Grāmatas/laikraksta (vai cita avota) nosaukums• Autors• Autora dzimums• Teksta avota publicēšanas laiks un izdevniecība (ja ir)• Teksta žanrs• Atslēgvārdi• Ir/nav bijusi manuāla pārbaude• Faila apstrādes laiks• Piezīmes

Page 15: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Metadatu pievienošana korpusa tekstiem

Page 16: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

www.korpuss.lv

Page 17: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Morfoloģiski marķēts korpuss

Page 18: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Ceļā uz Latviešu valodas vispārīgo korpusu (2)

• Projekta “Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa paplašināšana” īstenošana ar VVA atbalstu no 15.02.2009.-30.09.2009.

• Valodas korpuss tiks papildināts par 2,5 miljoniem vārdlietojumu.

Page 19: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Esošie resursi un iestrādes

• Latviešu valodas korpusa koncepcija (2005)• Līdzsvarots Latviešu valodas vispārīgais korpuss

(miljons vārdlietojumu)• Iestrādes runas korpusa izveidē• Iestrādes morfoloģiskās marķēšanas izstrādē (ar VVA

atbalstu, projekts SemTi-Kamols u. c.)• Iestrādes sintaktiskās marķēšanas izstrādē (SemTi-

Kamols)• Neliels morfoloģiski marķēts korpuss• Tīmekļa korpuss

Page 20: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Kādam jābūt latviešu valodas vispārīgajam korpusam?

100 milj. vārdlietojumu liels līdzsvarots mūsdienu Latviešu valodas vispārīgais korpuss ar dažādu līmeņu marķējumu

Latviešu valodas korpusa koncepcija. 1.2. diagramma – runātās un rakstītās valodas attiecība vispārīgajā latviešu valodas korpusā.

Runātā valoda, 10 000 00010%

Rakstītā valoda, 90 000 00090%

Page 21: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Latviešu valodas vispārīgais korpuss.Kas nepieciešams tuvākajā laikā?

• Papildināt korpusu ar pēc iespējas vairāk vārdlietojumiem, ņemot vērā jau iegūto pieredzi un korpusa izveides kritērijus

• Pusautomātisks morfoloģiskās marķēšanas rīks – 1 milj. vārdlietojumu pārbaudītu morfoloģiski marķētu tekstu

• Uz iepriekšējā bāzes apmācīts morfoloģiskās marķēšanas automātisks rīks

• Pārbaudīta paraugkopa ar sintaktisko marķējumu

Page 22: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Paredzamās korpusa papildināšanas problēmas

• Nepieciešamo tekstu ieguve reprezentatīva un līdzsvarota korpusa nodrošināšanai– Vienošanās panākšana ar tekstu turētājiem par dažādu

elektronisku resursu ieguvi

• Tekstu priekšapstrāde• Korpusam specifiskas programmatūras pielāgošana un

izveide (www.korpuss.lv)• Autortiesību jautājuma risināšana

Page 23: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Citi nepieciešamie resursi

• Specializētie korpusi (dialektu, kādas zinātņu nozares, zinātnisku tekstu u. c.)

• Divvalodu un daudzvalodu korpusi• u.c.

Page 24: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

• Paldies par uzmanību!

• Jautājumi?

Page 25: Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Jautājumi diskusijai

• Vienošanās panākšana ar tekstu turētājiem par dažādu elektronisku resursu ieguvi

• Līdzsvarotības un reprezentativitātes nodrošināšana saistībā ar resursu ieguvi

• Korpusa izstrādes ātrums• Autortiesības• Nepublicētu resursu ievietošana korpusā