latviešu valodas resursi un rīki clarin infrastruktūrā

11
Latviešu valodas resursi un rīki CLARIN infrastruktūrā Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Rīgā, 2011. gada 4. jūlijā

Upload: normunds-gruzitis

Post on 21-Jun-2015

492 views

Category:

Technology


7 download

TRANSCRIPT

Page 1: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Latviešu valodas resursi un rīkiCLARIN infrastruktūrā

Normunds Grūzītis

LU Matemātikas un informātikas institūtaMākslīgā intelekta laboratorija

Rīgā, 2011. gada 4. jūlijā

Page 2: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Mērķi• Pieejamība:

– Tīmekļa pakalpes (web services) valodas resursu un rīku attālinātai, automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs• Vārdu un teikumu dalītājs• Statistisks morfoloģiskais marķētājs (tageris)• Morfoloģiskais analizators un sintezators• Runas sintezators• Latviešu literārās valodas vārdnīca

– Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā• Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti

• Standartizācija:– Morpho-syntactic Annotation Framework (ISO/DIS 24611)– Text Corpus Format (vers. 0.4)– Lexical Markup Framework (ISO/IS 24613:2008)– ISOcat Data Category Registry (ISO/IS 12620:2009)– MULTEXT-East (vers. 4)

• Atvērtība:– Rīki: [Lesser] General Public License– Resursi: Creative Commons License (ar nosacījumiem)

Page 3: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Statistisks morfoloģiskais tageris• http://valoda.ailab.lv/ws/tagger/• Datu apmaiņas formāti: ISO MAF, TCF• Pazīmju kopas: ISOcat, MULTEXT-East

Page 4: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Tīmekļa pakalpju kombinēšana• Dalība CLARIN WG 5.6 nodevumā “Integration of Language Resources

into Web service infrastructure”: “Standards in practice: IMCS services”– Eksperiments ar ISO MAF, kas pašlaik ir “international draft” stadijā

• Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai,analoģiski kā TCF formātā

– ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai

(TCF) (TCF) (TCF) (TCF)

Page 5: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Izmantotie/pielāgotie standarti• Datu apmaiņas formāti – valodneatkarīgi• Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas• Mērķis:

– Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām– Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras

• Tomēr tradīcijai ir sekundāra nozīme– Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu

• MULTEXT-East vers. 4 atvasinājums, ņemot vērā:– pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā– pieredzi latviešu valodas sintaktiskajā analīzē– pieredzi latviešu valodas ģenerēšanā (sintēzē)– pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē– pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē– pieredzi statistiskajā morfoloģiskajā tagošanā– esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi– latviešu valodniecības tradīciju

Page 6: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Morfoloģiskais analizators/sintezators• http://valoda.ailab.lv/ws/morph/• Datu apmaiņas formāti: ISO LMF• Pazīmju kopas: ISOcat

Page 7: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Morfoloģiskais leksikonsLicence: Creative Commons Attribution-NonCommercial-ShareAlike 3.0

• Par pamatu ņemti LLVV šķirkļu vārdi• Divdabju formas un skaitļa vārdi pašlaik nav ietverti

Pamatformas Vārdformas PazīmesLietvārdi 32 386 355 488 710 976Darbības vārdi 12 002 347 729 1 174 964Īpašības vārdi 6 086 681 632 3 408 160Apstākļa vārdi 6 497 6 497 0Vietniekvārdi 51 472 944Citi 409 409 0Kopā 57 431 1 392 227 5 295 044

Page 8: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Runas sintezators• http://valoda.ailab.lv/ws/tts/

– Pieprasījums: vārds, teikums vai teksta fragments– Atbilde: MP3 datne vai URL uz MP3 datni

• Tīmekļa pakalpei pieejama arī galalietotāju saskarne:

Page 9: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Latviešu literārās valodas vārdnīca

http://tezaurs.lv/llvv/

Page 10: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Drīzumā...• Latviešu valodas tīmekļa pakalpes WebLicht infrastruktūrā

– Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs– http://weblicht.sfs.uni-tuebingen.de/– Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku

kombinēšanai, darbināšanai un rezultātu pārlūkošanai

• Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju)– http://tezaurs.lv/mev/– https://laife.lanet.lv

• Latviešu valodas korpusa platformas jaunā versija– http://korpuss.lv/– Uzlabota veiktspēja– Tīmekļa saskarne (Bonito)– Vienots, uzlabots marķējums (balstīts uz MULTEXT-East vers. 4)

Page 11: Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Paldies!

twitter.com/AILab_lvSekojiet jaunumiem: