mūsdienu latviešu valodas korpuss: kādam tam jābūt?
DESCRIPTION
Mūsdienu latviešu valodas korpuss: kādam tam jābūt?. Kristīne Levāne- Petrova LU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī. Valodas korpuss. Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam. - PowerPoint PPT PresentationTRANSCRIPT
Mūsdienu latviešu valodas korpuss: kādam tam jābūt?
Kristīne Levāne-PetrovaLU Matemātikas un informātikas institūts
Clarin seminārs 2009. gada 2. aprīlī
Valodas korpuss
Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam.
http://www.engl.polyu.edu.hk/corpuslinguist/corpus.htm
Mūsdienās arī: elektroniskā formā
Korpusa izmantošana
– Valodas pētniecībā dažādos valodas līmeņos– Leksikogrāfijā– Mācīblīdzekļu sagatavošanā– Valodas salīdzināmajā analīzē– Tulkošanā un tulkojumzinātnē– Pareizrakstības un gramatikas automatizētā pārbaudē– Psiholingvistikā un sociolingvistikā
Korpusa nepieciešamība Valodas pilnvērtīga attīstība nākotnē
Vispārīgie korpusi▪ Britu nacionālais korpuss (BNC) (100 milj. vārdlietojumu)
(http://www.natcorp.ox.ac.uk/)▪ Čehu nacionālais korpuss (100 milj. vārdlietojumu)
(http://ucnk.ff.cuni.cz/english/index.html)▪ Lietuviešu valodas tekstu korpuss (vairāk nekā 100 milj.
vārdlietojumu) (http://donelaitis.vdu.lt/tekstynas/) Kultūras piemineklis Noderīgs uzziņu avots
Ceļā uz Latviešu valodas vispārīgo korpusu (www.korpuss.lv)
Projekta “Latviešu valodaskorpusa tekstu metadatusagatavošana”īstenošana arVVA atbalstuno 01.09.2007. – 01.03.2008. (LUMII)
Publicistika50%
Zinātniski teksti10%
Populārz-inātniski
teksti5%
Saeimas stenogrammas
2%
Normatīvie akti8%
Citi5%
Daiļliteratūra20%
1 miljons vārdlietojumu
Korpusa projektēšana• Korpusa reprezentativitāte un līdzsvarotība
– Valodas lietojuma sfēru daudzveidības atspoguļojums (dažādi valodas paveidi)
– korpusa sastāvs (dažādu tekstu veidu, tēmu proporcijas);
• Iekļaujamo tekstu laika periods• Tekstu atlases kritēriji• Tekstu ieguves veids• Vai tiks iekļauti pilni teksti vai tekstu fragmenti?• Korpusa sistēmas izstrāde
Korpusa izveides kritēriji
• Korpusā iekļauti teksti no 1991. gada• Korpusā ievietoti pilni teksti• Korpusā ievietoti autentiski teksti• Korpuss līdzsvarots atbilstoši Latviešu valodas
korpusa koncepcijai
Vispārīgā korpusa līdzsvarotība
Publicistika50%
Zinātniski teksti10%
Populārzinātniski teksti5%
Saeimas stenogrammas
2%
Normatīvie akti8%
Citi5%
Daiļliteratūra20%
1 miljons vārdlietojumu(1991-2008)
Vispārīgā korpusa līdzsvarotība (2)
Nacionālie laikraksti74%
Reģionālie laikraksti26%
Nacionālo un reģionālo laikrakstu līdzsvarotība
Vispārīgā korpusa līdzsvarotība (3)
Diena29%
Latvijas Vēstnesis21%Dienas Bizness
13%
Neatkarīgā Rīta Avīze20%
Latvijas Avīze17%
Nacionālo laikrakstu līdzsvarotība
Tekstu ieguve un pārbaude
• Teksti tiek iegūti no LU MII elektronisko tekstu resursiem un tīmekļa
• Visi korpusā ievietotie teksti tiek manuāli pārbaudīti
Tekstu atlases kritēriji
• Teksta paveids (publicistika, daiļliteratūra u.tml.)• Teksta izdošanas/sarakstīšanas gads• Lasāmība/popularitāte (piem., zinātniski teksti,
daiļliteratūra)• Ģeogrāfija (reģionālie laikraksti) u. c.
Metadati
• Metadati ir dati par datiem.• TEI (Text Encoding Initiative) Header un CES
(Corpus Encoding Standard) Header standarta apakškopa
Korpusam pievienojamo metadatu kopa• Mapes nosaukums• Faila nosaukums• Vārdlietojumu skaits• Grāmatas/laikraksta (vai cita avota) nosaukums• Autors• Autora dzimums• Teksta avota publicēšanas laiks un izdevniecība (ja ir)• Teksta žanrs• Atslēgvārdi• Ir/nav bijusi manuāla pārbaude• Faila apstrādes laiks• Piezīmes
Metadatu pievienošana korpusa tekstiem
www.korpuss.lv
Morfoloģiski marķēts korpuss
Ceļā uz Latviešu valodas vispārīgo korpusu (2)
• Projekta “Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa paplašināšana” īstenošana ar VVA atbalstu no 15.02.2009.-30.09.2009.
• Valodas korpuss tiks papildināts par 2,5 miljoniem vārdlietojumu.
Esošie resursi un iestrādes
• Latviešu valodas korpusa koncepcija (2005)• Līdzsvarots Latviešu valodas vispārīgais korpuss
(miljons vārdlietojumu)• Iestrādes runas korpusa izveidē• Iestrādes morfoloģiskās marķēšanas izstrādē (ar VVA
atbalstu, projekts SemTi-Kamols u. c.)• Iestrādes sintaktiskās marķēšanas izstrādē (SemTi-
Kamols)• Neliels morfoloģiski marķēts korpuss• Tīmekļa korpuss
Kādam jābūt latviešu valodas vispārīgajam korpusam?
100 milj. vārdlietojumu liels līdzsvarots mūsdienu Latviešu valodas vispārīgais korpuss ar dažādu līmeņu marķējumu
Latviešu valodas korpusa koncepcija. 1.2. diagramma – runātās un rakstītās valodas attiecība vispārīgajā latviešu valodas korpusā.
Runātā valoda, 10 000 00010%
Rakstītā valoda, 90 000 00090%
Latviešu valodas vispārīgais korpuss.Kas nepieciešams tuvākajā laikā?
• Papildināt korpusu ar pēc iespējas vairāk vārdlietojumiem, ņemot vērā jau iegūto pieredzi un korpusa izveides kritērijus
• Pusautomātisks morfoloģiskās marķēšanas rīks – 1 milj. vārdlietojumu pārbaudītu morfoloģiski marķētu tekstu
• Uz iepriekšējā bāzes apmācīts morfoloģiskās marķēšanas automātisks rīks
• Pārbaudīta paraugkopa ar sintaktisko marķējumu
Paredzamās korpusa papildināšanas problēmas
• Nepieciešamo tekstu ieguve reprezentatīva un līdzsvarota korpusa nodrošināšanai– Vienošanās panākšana ar tekstu turētājiem par dažādu
elektronisku resursu ieguvi
• Tekstu priekšapstrāde• Korpusam specifiskas programmatūras pielāgošana un
izveide (www.korpuss.lv)• Autortiesību jautājuma risināšana
Citi nepieciešamie resursi
• Specializētie korpusi (dialektu, kādas zinātņu nozares, zinātnisku tekstu u. c.)
• Divvalodu un daudzvalodu korpusi• u.c.
• Paldies par uzmanību!
• Jautājumi?
Jautājumi diskusijai
• Vienošanās panākšana ar tekstu turētājiem par dažādu elektronisku resursu ieguvi
• Līdzsvarotības un reprezentativitātes nodrošināšana saistībā ar resursu ieguvi
• Korpusa izstrādes ātrums• Autortiesības• Nepublicētu resursu ievietošana korpusā