„eyríki finnst málfræði skemmtileg“ vélræn leiðrétting samhengisháðra ritvillna anton...

25
„Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason [email protected] m Hugvísindaþing 14. mars 2009

Post on 21-Dec-2015

221 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

„Eyríki finnst málfræði skemmtileg“Vélræn leiðrétting samhengisháðra ritvillna

Anton Karl Ingason

[email protected]

Hugvísindaþing

14. mars 2009

Page 2: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Samhengisháð ritvilluleiðrétting

• Hefðbundin vélræn ritvilluleit– Eitt orð skoðað í einu, sbr. Púki– Dæmi: Við hövum alltaf lyst á matnum okkar– Getur fækkað villum verulega

• Samhengisháðar ritvillur– Orð sem er til en er ekki rétt í tilteknu samhengi– Dæmi: Við höfum alltaf list á matnum okkar

– Um 25-50% af villum í ensku (Kukich 1992)– Margræðar endingar flækja málið í íslensku

Page 3: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Markmið verkefnis• Fá yfirlit yfir samhengisháðar ritvillur í íslensku

og flokka þær eftir eðli – i/y, n/nn, stafavíxl, ...

• Skrifa forrit sem getur leiðrétt villur úr a.m.k. sumum flokkum með um 90% nákvæmni

• Gera forritið aðgengilegt í vefviðmóti

• Ganga þannig frá forritinu að tenging við annan hugbúnað sé einföld (ritvinnsluforrit, póstforrit, vefumsjónarkerfi, ...)

• Auðvelt sé að bæta virknina (greina fleiri villur)

Page 4: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Samhengisháð ritvilla eða málfræðivilla?

• Flestar málfræðivillur falla einnig undir skilgreiningu á samhengisháðri ritvillu

– Jóni vantar pening

– Ég vill fá pening

• Ekki allar samhengisháðar ritvillur eru málfræðivillur

– Við höfum alltaf list á matnum okkar

• Ólíkar aðferðir:

– Málfræðileiðrétting: Hömlur á formgerð setninga

– Samhengisháð ritvilluleiðrétting: Einræðing (e. disambiguation) vafaorðamengis

Page 5: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Vafaorðamengi

• Hugmyndin um vafaorðamengi er mikilvæg í samhengisháðri ritvilluleiðréttingu– Vafaorðamengi er mengi orðmynda sem líklegt er

að breytist hverjar í aðrar vegna villna

– Dæmi: (list/lyst) (vil/vill) (himinn/himin)

– Þar sem nákvæmni í SHR er takmörkuð þarf að velja vafaorðamengi skynsamlega

– Ýmsar málvöndunarbókmenntir, kennslubækur í stafsetningu, …

– Forrit finnur vafaorð og einræðir skv. samhengi

Page 6: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Eru til svona forrit?

• Fylgir með Word 2007 fyrir ensku

• Nýr möguleiki, ekki sjálfgefið að hann sé virkur

• Virkar ágætlega:– This is a peace of cake– A nice pear of shoes

• LanguageTool viðbót til fyrir OpenOffice.org– Frjáls hugbúnaður, tungumálum fer fjölgandi

Page 7: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Aðferðir við einræðingu

• Gagnaaðferðir (e. data-driven)– Forrit lærir mynstur með því að skoða málheild– Vísbendingum um dæmigert samhengi safnað– Tölfræðilegar aðferðir notaðar við einræðingu

• Regluaðferðir– Reglur smíðaðar handvirkt– Virkar vel þegar annað tveggja orða kemur fyrir

í mjög reglulegu umhverfi (leiti/leyti)

• Gagna- og regluaðferðum má blanda saman

Page 8: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Upplýsingar úr samhengi

• Orðmyndir, mörk og nefnimyndir (lemmur) úr samhenginu eru þær upplýsingar sem forritið fær

• Mörkum með IceTagger (Hrafn Loftsson 2008) og lemmum með Lemmaldi (Anton Karl Ingason o.fl. 2008)

• Dæmi: Listamaður frá Reykjavík hefur ákveðið að (sína/sýna) verk sín á listahátíð sem ...

Page 9: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Gagnaaðferðir

• Almennar tölfræðilegar flokkunaraðferðir notaðar til að einræða– Naive Bayes, Winnow, ...

• Flokkarinn fær að sjá fjölda dæma úr málheild og lærir þannig hvaða orðmyndir, nefnimyndir og mörk skipta máli– að ýmsu á undan (leiti/leyti) bendir til leyti

• Prófað á ýmsum vafaorðamengjum

Page 10: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Árangur gagnaaðferða

• Samanburður við BaseLine flokkara sem velur alltaf algengara orðið (gaf 65% rétta niðurstöðu)

• Besti flokkarinn (NaiveBayes) nær 87,2% árangri að meðaltali, ágætt en heldur slakara en í ensku

• Sum pör er auðvelt að flokka, t.d. sína/sýna, þar sem 96% árangur næst (algeng orð, miklar upplýsingar í málheild)

• Ef annað orðið er mun algengara (degi/deyi) næst litlu betri árangur með flokkurum en BaseLine (94% / 91%)

• 87,2% er vel nýtilegt í ritvinnslu

Page 11: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Regluaðferðir

• Leiðrétting sem byggist á reglum gerir mun minni kröfur til vélbúnaðar

• Ef annað orðið kemur fyrir í mjög reglulegu samhengi er fljótgert að skrifa reglur sem ná verulegri nákvæmni

• leyti er dæmi um þetta

• Þarf fáar og einfaldar reglur til að ná yfir nokkurn veginn alla möguleika

Page 12: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

LanguageTool• Undanfarið hefur vinna í verkefninu beinst

að því að hugbúnaðurinn verði hluti af LangaugeTool (Naber 2003)

• Þar með kemur tenging við OpenOffice.org sjálfkrafa og auðvelt er að tengja við annan hugbúnað

• LT hefur innbyggðan stuðning fyrir reglur á XML-sniði

• Einnig hægt að útfæra forritaðar einingar

Page 13: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

XML-reglur í LanguageTool<rule id="BED_ENGLISH" name="Possible typo

&apos;bed/bat(bad) English/...&apos;">

• <pattern mark_from="0" mark_to="-1">

• <token regexp="yes">bed|bat</token>

• <token regexp="yes">[Ee]nglish|attitude</token>

• </pattern>

• <message>Did you mean

• <suggestion>bad</suggestion>?

• </message>

• <example type="correct">

• Sorry for my <marker>bad</marker> English.

• </example>

• <example type="incorrect">

• Sorry for my <marker>bed</marker> English.

• </example>

• </rule>

Page 14: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Mynstur með orðum á milli

<token skip="1">A</token>

<token>B</token>

Gerir það sama og:

<token>A</token>

<token/>

<token>B</token>

<token>A</token>

<token>B</token>

Page 15: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Flóknari mynstur (hér skal nota lh.þt. í ensku)

<pattern mark_from="1" mark_to="-1">

<token regexp="yes">has|have</token>

<token postag="VBD|VBP|VB" postag_regexp="yes"><exception postag="VBN|NN:U.*|JJ.*|RB" postag_regexp="yes"/></token>

<token><exception postag="VBG"/></token>

</pattern>

<message>Possible agreement error -- use past participle here: <suggestion><match no="2" postag="VBN"/></suggestion>.</message>

Page 16: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Fjölbreyttir möguleikar

• LT má nota fyrir allar samhengisháðar ábendingar um texta, ekki bara það sem við myndum kalla ritvillur

• Til að sýna fram á möguleikana höfum við sett upp tilraunaútgáfu með dæmum um ýmiss konar samhengisháða málfarsráðgjöf

• Þegar íslenska er komin inn í LT getur hver sem er lagt hönd á plóg og skrifað reglur til að bæta forritið

Page 17: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Vefviðmót

• Skoðum dæmi ...

Page 18: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Það er að ýmsu leiti vandasamt að skrifa alltaf rétta íslensku einsog við lærum um í í skólanum. undarlegar reglur, arfleið frá fyrri tíð, streyma um hugann eins og órólegar vatnssameindir á leið sinni niður ánna sem ber þær til sjávar. Á vandasamri leið okkar farm á ritvöllinn búumst við ennfremur sífellt við brjáluðum brellum og göldróttum gildrum en við teljum okkur þó ætíð skylt að sína hvað í okkur býr meðan við berjum lyklaborðið í sífellu.

Einhvern veginn finnst okkur samt að við séum þokkalega ekki að skilja reglnaregnið og stundum er maður einfaldlega ekki að nenna því að fletta hverju einasta vafaatriði upp í handbókum íslenskufræðinga. Af gefnu tilefni er rétt að nefna að við erum alls ekki að átta okkur á hugmyndum fræðimanna um veik kvenkynsorð. Þeir virðast vilja kvelja málvitund okkar að ásettu ráði og líklega hafa flestir Íslendingar illa bifur á furðulegri endingu eignarfalls fleirtölu.

...

Page 19: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars
Page 20: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars
Page 21: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars
Page 22: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars
Page 23: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars
Page 24: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Samantekt

• Verkefnið hefur lagt grunn að samhengisháðri ritvilluleit fyrir íslensku

• Prófaðar hafa verið bæði gagnaaðferðir og regluaðferðir

• Árangurinn ekki eins góður og í ensku en samt nýtilegur

• Tengingin við LanguageTool er um leið tenging úr rannsóknarverkefni yfir í hagnýtan hugbúnað

• Önnur verkefni geta byggt á þessari tengingu

Page 25: „Eyríki finnst málfræði skemmtileg“ Vélræn leiðrétting samhengisháðra ritvillna Anton Karl Ingason anton.karl.ingason@gmail.com Hugvísindaþing 14. mars

Heimildir

Anton Karl Ingason, Sigrún Helgadóttir, Hrafn Loftsson and Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using Hierachy of Linguistic Identities (HOLI). In B. Nordström and A. Rante (eds.), Advances in Natural Language Processing, 6th International Conference on NLP, GoTAL 2008, Proceedings. Gothenburg, Sweden.

Hrafn Loftsson. 2008. Tagging Icelandic text: A linguistic rule-based approach. Nordic Journal of Linguistics, 31(1), 47-72. © 2008 Cambridge University Press.

Kukich, Karen. 1992. Techniques for automatically correcting words in text. ACM Computing Surveys, 24(4), 377–439.

Naber, Daniel. 2003. A Rule-Based Style and Grammar Checker. Diploma ritgerð. Universität Bielefeld.