latviešu valodas morfosintaktiskais marķētājs

Post on 11-Apr-2017

367 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Latviešu valodas morfosintaktiskais

marķētājsBakalaura darbs

Pēteris Ņikiforovs

ProblēmaLatviešu valodā gandrīz 50% vārdu ir daudznozīmīgi

roku

Problēma

es māju ar roku es roku bedri es klausos roku

lietvārdssiev. dz., vsk.

darbības vārdsvnk. tagadne, vsk., 1.pers.

lietvārdsvīr. dz., vsk.

UzdevumsMarķēšana

Morfosintaktiskās īpašības

Es māju ar roku

vietniekvārds darbības vārds prievārds lietvārds

N-fpa---------n-------------

N – lietvārds (noun)f – siev. dzimte (feminine)p – daudzskaitlis (plural)a – akuzatīvs (accusative)n – nav deminutīvā- - neattiecas

Risinājums• Mašīnmācīšanās• Klasifikācijas uzdevums• Perceptrons

Pielietojums• Sintaktiskā parsēšana• Nosaukto entitāšu atrašana• Terminu identificēšana• Mašīntulkošana – faktorētie modeļi

Korpusi

Nosaukums SkaitsTeikumi 7021Tekstvienības 108043

Unikālās tekstvienības 22952

Tagi 441Daudznozīmīgās tekstvienības 49%

Nosaukums SkaitsTeikumi 7462Tekstvienības 126230Unikālās tekstvienības 25884Tagi 1594Normalizēti tagi 984Daudznozīmīgās tekstvienības 47%

Populārākie tagiTags Skaits

N-fsg---------n------------- 1919

---------------------------- 1817

N-fpa---------n------------- 1553

N-fpa---------n------------- 1449

N-fpn---------n------------- 1466

N-fsa---------n------------- 1275

N-fsn---------n------------- 1257

Tags Skaits

v__i___30 1851

n_fsg 1817

n_fpn 1783

n_fpa 1745

n_fsn 1727

n_msv 1700

n_fpv 1680

Perceptrons• Pārraudzītās mašīnmācīšanās algoritms• Lineārā klasifikācija• Vairāku klašu perceptrons• Vidējais perceptrons• Pakāpeniska (online) mācīšanās• Kļūdu vadīts (error driven)

Pazīmes

Uzdevums

Ievaddati

Svari no apmācībām

Vārdšķiras noteikšana

vietniekvārds = 1 + 3 + 0 = 4

Vārdšķiras noteikšana

darbības vārds = -1 + 6 + 3 = 8lietvārds = 2 + 2 + 1 = 5

Izvaddati

Diagramma

Apmācības• Atkārto 1 .. n reizes:

• sajauc teikumus jauktā secībā• katram teikumam:• katram vārdam teikumā:• pareģo vārdšķiru, kā iepriekš stāstīts• vai pareģoja pareizi?• ja jā, tad ejam tālāk• citādi• pieskaitām +1 svariem pazīmēm pareizajai vārdšķirai• pieskaitām -1 svariem pazīmēm nepareizi pareģotajai vārdšķirai

Apmācības

vietniekvārds = 0 + 0 + 0 = 0

Apmācības

lietvārds = 0 + 0 + 0 = 0darbības vārds = 0 + 0 + 0 = 0

Apmācības

Vidējais perceptronsfunkcija apmācības(F, T, S, it)

Wt,f = 0 katram t ∈ T, f ∈ F atkārtot it reizes

katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) h += t atgriež W

funkcija apmācības(F, T, S, it)

Wt,f = 0 katram t ∈ T, f ∈ F Ut,f = 0 katram t ∈ T, f ∈ F c = 1

atkārtot it reizes

katram s ∈ S h = ∅ atkārtot i no 1 līdz |s| ja t ≠ katram f ∈ F Wt,f += 1 ∙ f(i,s,h) Wt^,f -= 1 ∙ f(i,s,h) Ut,f += 1 ∙ f(i,s,h) ∙ c Ut^,f -= 1 ∙ f(i,s,h) ∙ c h += t c += 1 atgriež W - U ∙ 1/c

A Course in Machine Learning - Hal Daumé IIIhttp://www.ciml.info/dl/v0_8/ciml-v0_8-ch03.pdf#page=14

PazīmesSkaits

Pazīmju skaits (vismaz 1x)

58 534

Tagi (vismaz 1x) 654

Pazīmes no katra taga

173 873

Eksperimenti• pašreizējais vārds• nākamais vārds• iepriekšējais vārds• iepriekšējā vārda vārdšķira• iepriekšējā vārda tags• iepriekšējie divu vārdi• iepriekšējo divu vārdu tagi• nākamie divi vārdi

• iepriekšējais un nākamais vārds• pašreizējā vārda pēdējie 4 burti• pašreizējā vārda pēdējie 3 burti• pašreizējā vārda pēdējie 2 burti• pašreizējā vārda pēdējais burts• pēdējā iepriekšējā lietvārda tags• iepriekšējā lietvārda vai prievārda,

kurš nav ģenitīva vai lokatīva locījumā, tags

Eksperimenti

Tilde

LU MII

93.2 93.4 93.6 93.8 94 94.2 94.4 94.6 94.8 95 95.2 95.4

Precizitāte ar parasto un vidējo perceptronu

Vidējais Parastais

Eksperimenti

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2094.2

94.3

94.4

94.5

94.6

94.7

94.8

94.9

95

95.1

95.2

95.3

Iterāciju skaits un precizitāte

Eksperimenti

Tilde

LU MII

90.4 90.8 91.2 91.6 92 92.4 92.8 93.2 93.6 94 94.4 94.8 95.2 95.6

Vārdu secība un precizitāte

Parasta Apgriezta

RezultātiPrecizitāte ar 10-kārtīgu šķērsvalidāciju

Korpuss Vārdšķira Tags Lemma Kopējais

Tilde 98,58% 95,21% 99,27% 95,20%

LU MII 98,29% 94,33% 98,24% 94,32%

Ticamības intervāls LU MII Tilde

90% 94,19 - 94,45 95,10 - 95,30

95% 94,17 - 94,47 95,09 - 95,32

99% 94,12 - 94,52 95,05 - 95,36

RezultātiSalīdzinājums ar citiem marķētājiem

Citas valodas

Zinātniskais raksts Precizitāte rakstā PerceptronsPinnis un Goba (2011) 91,51% 94,83%

Paikens et al. (2013) 93,6% 93,67%

Valoda Vārdšķira Tags Lemma Kopējais

Lietuviešu 98,12% 93,95% 99,06% 93,93%

Igauņu 98,65% 97,26% 99,16% 97,01%

Paveiktais• Bakalaura darbs

• Problēmas apraksts & piedāvātais risinājums• Priekšapstrāde• Morfoloģija un korpusi• Markēšana

• Perceptrons• Citi rīki

• Implementācija• Eksperimenti• Novērtēšana

• Kļūdu analīze

top related