icelandic

81
White Paper Series THE ICELANDIC LANGUAGE IN THE DIGITAL AGE Hvítbókaröð ÍSLENSK TUNGA Á STAFRÆNNI ÖLD Eiríkur Rögnvaldsson Kristín M. Jóhannsdóttir Sigrún Helgadóttir Steinþór Steingrímsson

Upload: murat

Post on 16-Sep-2015

48 views

Category:

Documents


19 download

DESCRIPTION

icelandica

TRANSCRIPT

  • White Paper Series

    THE ICELANDICLANGUAGE IN

    THE DIGITALAGE

    Hvtbkar

    SLENSKTUNGA STAFRNNILDEirkur RgnvaldssonKristn M. JhannsdttirSigrn HelgadttirSteinr Steingrmsson

  • White Paper Series

    THE ICELANDICLANGUAGE IN

    THE DIGITALAGE

    Hvtbkar

    SLENSKTUNGA STAFRNNILDEirkur Rgnvaldsson Hskla slandsKristn M. Jhannsdttir Hskla slandsSigrn Helgadttir rnastofnunSteinr Steingrmsson Hskla slands

    Georg Rehm, Hans Uszkoreit(ritstjrar, editors)

  • FORMLI PREFACE

    essi hvtbk er hluti af ritr til kynningar ml- is white paper is part of a series that promotes

    tkni og mguleikum hennar. Henni er einkum beint knowledge about language technology and its poten-

    til flks sem starfar menntageiranum, lmilum, tial. It addresses journalists, politicians, language com-

    stjrnmlumog raun tilmlsamflagsins heild. A- munities, educators and others. e availability and

    gengi a mltkni og notkun hennar er mjg mismun- use of language technology in Europe varies between

    andi milli tungumla Evrpu. ar af leiir a agerir languages. Consequently, the actions that are required

    sem nausynlegar eru til a styja rannsknir og r- to further support research and development of lan-

    unarstarf mltkni eru einnig lkar milli mla. ms- guage technologies also diers. e required actions

    ir ttir hafa hrif a hvaa agera er rf, svo sem depend on many factors, such as the complexity of a

    str mlsamflagsins og hversu ki tungumli er. given language and the size of its community.

    vegum META-NET, sem er ndvegisnet rmagn- META-NET, a Network of Excellence funded by the

    a af Evrpusambandinu, hefur veri lagt mat nver- European Commission, has conducted an analysis of

    andi stu mlfngumogmltkni (sj bls. 73). essi current language resources and technologies in this

    greining tk til hinna 23 opinberu mla Evrpusam- white paper series (p. 73). e analysis focused on the

    bandsins auk annarra mikilvgra jtungna og sv- 23 ocial European languages as well as other impor-

    isbundinna tungumla lfunni. Niurstur essarar tant national and regional languages in Europe. e re-

    greiningar benda til a llum mlunum skorti rann- sults of this analysis suggest that there are tremendous

    sknir mikilvgum svium. Nkvmari greining sr- decits in technology support and signicant research

    fringa og mat nverandi stu mun hjlpa til vi gaps for each language. e given detailed expert anal-

    a hmarka rangur vibtarrannskna og lgmarka ysis and assessment of the current situation will help

    httu. maximise the impact of additional research.

    META-NET tengir saman 54 rannsknarsetur 33 As of November 2011, META-NET consists of 54

    lndum ( nvember 2011, sj bls. 69). au vinna me research centres from 33 European countries (p. 69).

    hagsmunaailum r viskiptalnu (hugbnaarfyr- META-NET is working with stakeholders from econ-

    irtkjum, tknifyrirtkjum og notendum), fr opin- omy (soware companies, technologyproviders, users),

    berum stofnunum, rannsknarstofnunum, sjlfst- government agencies, research organisations, non-

    um flagasamtkum, fulltrum mlsamflaga og evr- governmental organisations, language communities

    pskum hsklum. samstar vi essa aila vinnur and European universities. Together with these com-

    META-NET a run heildstrar tknisnar og t- munities, META-NET is creating a common technol-

    frri rannsknarstefnu handa margmla Evrpu ri ogy vision and strategic research agenda for multilin-

    2020. gual Europe 2020.

    III

  • META-NET [email protected] http://www.meta-net.eu

    Hfundar essa rits akkahfundumhvtbkar umsku fyrir

    ley til a endurnta almenna kaa r verki eirra [1].

    Ger essarar hvtbkar var kostu af Sjundu ramma-

    tlun Evrpusambandsins og Stefnumtunartlun Evr-

    pusambandsins upplsinga- og samskiptatkni samkvmt

    samningum vi T4ME (styrksamningur 249119), CESAR

    (styrksamningur 271022), METANET4U (styrksamningur

    270893) og META-NORD (styrksamningur 270899).

    e authors of this document are grateful to the authors of

    the White Paper on German for permission to re-use selected

    language-independent materials from their document [1].

    e development of this white paper has been funded by the

    Seventh Framework Programme and the ICT Policy Support

    Programme of the European Commission under the contracts

    T4ME (Grant Agreement 249119), CESAR (Grant Agree-

    ment 271022), METANET4U (Grant Agreement 270893)

    andMETA-NORD (Grant Agreement 270899).

    IV

  • EFNISYFIRLIT CONTENTS

    SLENSK TUNGA STAFRNNI LD

    1 Yrlit 1

    2 Httur sem steja a tungumlinu: grun fyrir mltkni 42.1 Tungumlarskuldar standa vegi fyrir evrpsku upplsingasamflagi . . . . . . . . . . . . . . . 52.2 Tunguml okkar httu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Mltkni er grundvallarstuningstkni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Tkifri mltkninnar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 granir sem mltkni stendur frammi fyrir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Mltaka manna og vla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3 slenska evrpsku upplsingasamflagi 93.1 Almenn atrii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Srkenni slenskrar tungu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Nleg run . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.4 slensk mlrkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 slenska menntakernu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.6 Aljlegir ttir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.7 slenska netinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    4 Mltkni fyrir slensku 154.1 Hgun mltknibnaar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Helstu verksvi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.3 nnur verksvi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.4 Nmsleiir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.5 Innlend verkefni og vifangsefni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.6 Agengi a mltknitlum og mlfngum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.7 Samanburur tungumla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.8 Niurstur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    5 Um META-NET 31

  • THE ICELANDIC LANGUAGE IN THE DIGITAL AGE

    1 Executive Summary 33

    2 Languages at Risk: a Challenge for Language Technology 362.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 372.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 382.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3 The Icelandic Language in the European Information Society 413.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2 Particularities of the Icelandic Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4 Ocial Language Protection in Iceland . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.7 Icelandic on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4 Language Technology Support for Icelandic 484.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5 About META-NET 64

    A Tilvsanir -- References 65

    B META-NET tttakendur -- META-NET Members 69

    C Hvtbkar META-NET -- The META-NET White Paper Series 73

  • 1YFIRLIT

    Upplsingatknin hefur breytt hversdagsl okkar. Vi

    notum tlvur til a skrifa og vinna me texta, reikna,

    leita upplsinga, og sfelltmeira einnig til a lesa, hlusta

    tnlist, skoa myndir og horfa kvikmyndir. Vi gng-

    um me snjallsma og spjaldtlvur okkur og notum

    til a hringja, senda tlvupst, aa okkur upplsinga og

    stytta okkur stundir, hvar sem vi erum stdd. Hvaa

    hrif hefur essi vtka stafrna bylting upplsingum,

    ekkingu og hversdagssamskiptum tunguml okkar?

    Mun a breytast ea jafnvel deyja t? Hvaa mgu-

    leika hefur slenska a lifa af ?

    Mrg hinna 6.000 tungumla heimsins munu ekki lifa

    af hinu hnattrna stafrna upplsingasamflagi. Tali

    er a a.m.k. 2.000 tunguml deyi t nstu ratugum.

    nnurmunu lifa af inni heimilum og daglegum sam-

    skiptum, en ekki vera notu viskiptalnu ea vs-

    indum og frum. Staa tungumlsins rst ekki bara

    af lda mlnotenda, ea lda bka, kvikmynda og

    sjnvarpsstva ar sem mli er nota, heldur einnig

    af hlutverki mlsins hinum stafrna upplsingaheimi

    og innan hugbnaargeirans.

    essu svii er slenska ekki srlega vel stdd. lok

    20. aldar var slensk mltkni nnast ekki til. Vi tt-

    um allgan stafrni (Pka), fullkominn talgervil, og

    ar me upp tali. Enginn slenskur hskli bau upp

    nmsleiir ea jafnvel einstk nmskei mltkni ea

    tlvumlvsindum, engar rannsknir voru stundaar

    essu svii, og engin slensk hugbnaarfyrirtki unnu

    a mltkniverkefnum [2].

    etta fr a breytast eir a srstakur starfshpur skil-

    ai skrslu um mltkni til menntamlarherra ri

    1999 [3]. essari skrslu voru settar fram tillgur um

    msar agerir til a koma slenskri mltkni laggirn-

    ar. ri 2000 setti rkisstjrnin af sta srstaka ml-

    tknitlun me a a markmii a styja stofnanir

    og fyrirtki til a koma upp undirstumlfngum

    gagnasfnum og hugbnai fyrir slenska mltkni.

    etta frumkvi gat af sr mis verkefni sem hafa lagt

    grundvll a slenskri mltkni [2].

    Eir a mltknitluninni lauk ri 2004 kvu

    frimenn fr remur stofnunum (Hskla slands,H-

    sklanum Reykjavk og Stofnun rna Magnssonar

    slenskum frum) a taka hndum saman og mynda

    samstarfsvettvang sem nefnistMltknisetur (Icelandic

    Centre forLanguageTechnology, ICLT) [4] til a fylgja

    vifangsefnum tlunarinnar eir. Fr 2005 hafa fri-

    mennMltkniseturs tt r vr msum verkefnum sem

    hafa fengi styrki fr Rannsknasji ogTknirunar-

    sji.

    rtt fyrir a talsvert ha unnist snir essi skrsla

    a a er einungis svii grundvallarbnaar og ml-

    fanga svo sem mlfrimrkunar, setningafrilegrar

    ttunar, mlheilda og trjbanka sem staa slenskunn-

    ar er viunandi. knari svium eins og merk-

    ingargreiningu setninga og texta, samrukerfum, upp-

    lsingaheimt, mlmyndun, samantekt texta, merkingar-

    greindummlheildumo.s.frv., er ekkert til fyrir slensku.

    v er ljst a miki starf er unni vi a tryggja fram-

    t slenskunnar sem fullgilds tttakanda evrpsku

    upplsingasamflagi ntmans og framtarinnar.

    Upplsinga- og samskiptatknin er n rskuldi nrr-

    ar byltingar. kjlfar einkatlva, netvingar, marg-

    1

  • milunar, spjaldtlva, snjallsma og tlvuskja fylgir

    nsta kynsl tkninnar sem mun ala af sr hugbna

    sem skilur ekki aeins bksta og mlhlj heldur heil

    or og setningar, og gagnast notendum margfalt bet-

    ur vegna ess a hann talar, kann og skilur tunguml

    eirra. Undanfarar essarar runar eru t. d. Google

    Translate, keypis netjnusta semirmilli 57 tungu-

    mla, ofurtlvan Watson hj IBM sem hefur sigra

    Bandarkjameistarann spurningaleiknum Jeopardy,

    og Siri-hugbnaurinn fyrir iPhone fr Apple sem getur

    brugist vi talskipunumog svara spurningum ensku,

    sku, frnsku og japnsku.

    Nsta kynsl upplsingatkninnar mun ra svo vel

    vi mannlegt ml a flk mun geta nota sitt eigi

    tunguml til samskipta me essari tkni. Tki munu

    geta brugist vi raddskipunum sem eru einfaldar

    notkun me v a aa sjlrafa mikilvgustu frtta

    og upplsinga r stafrnumupplsingabrunni heimsins.

    Bnaur sem byggist mltkni mun geta tt sjlf-

    virkan htt ea astoa tlka; gert tdrtti r sam-

    tlum og skjlum; og lisinnt notendum vi nm. Til

    dmis gti slkur bnaur hjlpa nbum til a lra

    slensku og falla annig betur a menningu landsins og

    samflagi.

    Nsta kynsl upplsinga- og samskiptatkninnarmun

    gera inaar- og jnustuvlmennum (sem veri er a

    ra rannsknastofum) klei a skilja nkvmlega

    hva notendur eirra vilja lta au gera, og gera s-

    an skra grein fyrir rangri snum. arna er komi

    allt anna og hrra svi en egar unni er me einfald-

    ar stafatur og orasfn, stafrna og framburarregl-

    ur. Tknin verur a hverfa fr einfldum nlgunum

    og sna sr a ger altkra mllkana sem taka einnig

    til setningagerar og merkingar til a skilja lbreyttar

    og knar spurningar og veita innihaldsrk og markviss

    svr.

    Evrpsk tunguml eru misvel bin undir essa framt.

    eirfarandi skrslu er sett fram stumat fyrir 30 Evr-

    puml, byggt rummeginttum; vlingum, tal-

    vinnslu, textagreiningu og grundvallarmlfngum sem

    arf til smi mltknibnaar. Mlunum var skipa

    mmklasa. a arf ekki a koma vart a slenska er

    lgsta klasanum llum essum rum svium. Hn er

    ar smu slum og nnur tunguml sem fir tala, svo

    sem rska, lettneska, lithska ogmaltneska. essi tungu-

    ml eru langt a baki strjamlum eins og t. d. sku

    og frnsku. En jafnvel mlfng ogmltknitl fyrir au

    tunguml n hvorki smu gum n yrgripi og hli-

    st fng og tl fyrir ensku, sem er fararbroddi nr

    llum sviummltkninnar.

    Hva arf til ef vi viljum tryggja framt slensku upp-

    lsingasamflaginu? ri 1999 tlai starfshpur um

    mltkni a a myndi kosta u..b. einn milljar krna

    gildandi verlagi a gera slenskamltkni sjlfbra.

    Eir a tti markaurinn a geta teki vi, vegna ess

    a hann hefi agang a mlfngum sem hefu veri

    ru vegum mltknitlunar rkisstjrnarinnar, og

    yru tiltk jafnrttisgrundvelli fyrir alla sem hygust

    nota au vi ger markasvara [3].

    Enda tt mltknitlunin ha veri rangursrk og

    ha mikil hrif run slenskar mltkni verur a

    hafa huga a rstfunarf hennar fr 2000-2004 var

    aeins um 1/8 af v sem starfshpur ummltkni taldi

    urfa [2]. a arf v ekki a koma vart a slensk

    mltkni er enn bernskuskeii. 330 sund mlnot-

    endur eru einfaldlega of fir til a standa undir kostna-

    arsamri run nrra framleisluvara. Umessarmundir

    vinna nr engin slensk fyrirtki svii mltkni vegna

    ess a au sj sr engan hag v. framhaldandi opin-

    ber stuningur vi slenskamltkni er nausynlegur til

    a tryggja ntingu ess bnaar og mlfanga sem eg-

    ar hefur veri komi upp, svo og eirrar ekkingar og

    reynslu sem safnast hefur saman meal frimanna og

    fyrirtkja.

    slenska er ekki brri httu, rtt fyrir yrburi ensk-

    unnar mltkni og tlvumlvsindum. hinn bg-

    2

  • inn gti staan gerbreyst svipstundu egar n kyn-

    sl tkninnar fer fyrir alvru a ra vimannlegt ml

    skilvirkan htt. Me framfrum vlingum mun

    mltknin hjlpa mnnum til a sigrast tungumla-

    rskuldum, en aeinsmilli eirramla semgeta bjarga

    sr hinum stafrna heimi. Tunguml sem jafnvel mjg

    fir tala geta lifa af, veri fullngjandi mltknibn-

    aur tiltkur. n slks bnaar munu jafnvel strja-

    tunguml vera mikilli httu. Eigi slenska a vera lf-

    vnleg jtunga ruum heimi verur hn a geta

    stai undir krfum upplsingatkninnar. Fjrfesting

    mltkni verur v a vera grunnttur framkvmd

    slenskrar mlstefnu.

    Langtmamarkmi META-NET er a innleia hga

    mltkni fyrir ll tunguml annig a menningarleg

    lbreytni stuli a eingu plitskrar og efnahagslegr-

    ar einingar. Tknin mun brjta mra milli tungumla

    Evrpu og sma brr milli eirra stainn. etta krefst

    ess a allir hagsmunaailar stjrnmlum, rannskn-

    um, viskiptum, og samflaginu llu sameini kraa

    sna gu framtar.

    essi hvtbkar tengist rummarkvissum agerum

    semMETA-NET stendur a. Njustu upplsingar eins

    og framtarsn [5] META-NET og tfra rannskn-

    arstefnu (Strategic Research Agenda, SRA) er a nna

    vefsetri META-NET: http://www.meta-net.eu.

    3

  • 2HTTUR SEM STEJA A TUNGUMLINU:GRUN FYRIR MLTKNI

    Vi verum um essar mundir vitni a stafrnni bylt-

    ingu sem hefur gfurleg hrif samskipti og samflag.

    Nleg run stafrnni upplsinga- og samskiptatkni

    er stundum borin saman vi a egar Gutenberg fann

    upp prentverki. Hva getur s samlking sagt okkur

    um framt evrpsks upplsingasamflags og srstaklega

    tungumla okkar?

    Vi verum um essar mundir vitni a stafrnnibyltingu sem hefur sambrileg hrif oguppnning prentverksins snum tma.

    Eir uppnningu Gutenbergs voru stigin tmamta-

    skref samskiptum og deilingu ekkingar me verkum

    eins og t. d. ingu Lthers Biblunni yr jtung-

    ur. eim ldum sem san eru linar hafa veri r-

    aar menningarbundnar aferir til a sinna betur ml-

    vinnslu og deilingu ekkingar:

    Stlun stafsetningar og mlfrireglna helstutungumla skapai mguleika hrari tbreislu

    nrra vsindalegra og vitsmunalegra hugmynda;

    run opinberra tungumla geri flki klei a hafasamskipti innan kveinna (o plitskra) landa-

    merkja;

    tungumlakennsla og ingar milli mla geru amgulegt a eiga samskipti vert tunguml;

    ritstjrnarreglur og bkfrileg vimi tryggugi prentas efnis og agengi a v;

    tilkomamargvslegra lmila, svo semdagblaa, t-varps, sjnvarps, bka o.. fullngi mismunandi

    samskiptarfum.

    sustu tuttugu rumhefur upplsingatknin tt sinn

    tt v a greia fyrirmrgum ferlumog gera au sjlf-

    virk:

    Ritvinnslu- og umbrotsker hafa komi sta vlrit-unar og setningar;

    Microso PowerPoint hefur komi stainn fyrirglrur og myndvarpa;

    me tlvupsti eru skjl send og teki mti eimmun hraar en me brfasma;

    Skype bur upp dr netsmtl og skapar vettvangfyrir arfundi;

    sni hlj- og myndbandaskra gerir auvelt askiptast margmilunarefni;

    leitarvlar greia notendum agang a vefsumme leit byggri lykilorum;

    netjnusta eins ogGoogleTranslate skilar smilegarttum ingum svipstundu;

    flagsmilar eins og Facebook, Twitter og Google+greia fyrir samskiptum, samvinnu og deilingu upp-

    lsinga.

    rtt fyrir gagnsemi slkra tla og bnaar dugir etta

    ekki til a standa undir sjlfbru margmla evrpsku

    samflagi fyrir alla, me frjlsu i upplsinga og varn-

    ings.

    4

  • 2.1 TUNGUMLARSKULDARSTANDA VEGI FYRIREVRPSKUUPPLSINGASAMFLAGIVi getum ekki vita nkvmlega hvernig upplsinga-

    samflag framtarinnarmun lta t. Enmiklar lkur eru

    v a bylting samskiptatkni muni skapa nja teg-

    und tengslamilli flks sem talarmismunandi tunguml.

    etta setur aukinn rsting flk a lra n tunguml

    og srstaklega hnnui a ba til njan tknibn-

    a sem tryggi gagnkvman skilning og agang a deil-

    anlegri ekkingu. aljasamflagi viskipta og upp-

    lsinga tengjast sfellt eiri tunguml og mlnotendur

    sfellt hraar me hjlp nrra mila. Vinsldir flags-

    mila (Wikipedia, Facebook, Twitter, YouTube og n

    nlega Google+) eru einungis toppurinn sjakanum.

    Sfellt eiri tunguml og mlnotendur tengjastsfellt hraar me hjlp nrra mila.

    N dgum getum vi utt margra ggabta texta um

    heiminn veran og endilangan rfum sekndum ur

    en vi ttum okkur v a hann er mli sem vi skilj-

    umekki. Samkvmtnrri skrslu fr framkvmdastjrn

    Evrpusambandsins kaupa 57% evrpskra netnotenda

    vrur og jnustu me v a nota tunguml nnur en

    murml sitt. (Enska er algengasta erlenda tunguml-

    i essu svii en ar eir koma franska, ska og

    spnska.) 55% notenda lesa erlent ml sr til gagns en

    aeins 35%nota anna tunguml til ess a skrifa tlvu-

    pst ea gera athugasemdir vefnum [6]. Fyrir nokkr-

    um rum var enska tunguml netsins megni af v

    efni sem ar var a nna var skrifa ensku en etta

    hefur n gerbreyst. Algjr sprenging hefur ori texta-

    magni rum Evrpumlum netinu (og sama gildir

    um tunguml Asu og Mi-Austurlanda).

    a stir furu a hin altka stafrna gj sem munur

    tungumla skapar skuli ekki hafa fengi mikla athygli

    opinberri umllun; samt sem ur vekur hn mjg

    brna spurningu: Hvaa Evrpuml munu dafna net-

    vddu upplsinga- og ekkingarsamflagi og hver eru

    dmd til a hverfa?

    2.2 TUNGUML OKKAR HTTUtt prentverki hraai deilingu upplsinga Evrpu

    olli a v einnig a mrg evrpsk tunguml liu und-

    ir lok. Textar svisbundnum mlum og minnihluta-

    mlumkomust sjaldan prent og v voru tunguml eins

    og kornska og dalmatska eingngu notu sem talml

    og notkunarsvi eirra ar me takmarka. Mun neti

    hafa sambrileg hrif tunguml okkar?

    Hin u..b. 80 tunguml Evrpu eru ein rkulegustu og

    mikilvgustu menningarvermti lfunnar og grund-

    vallarttur hinni einstku samflagsger hennar [7].

    tt tunguml eins og enska og spnska muni a ll-

    um lkindum halda stu sinni hinu stafrna mark-

    astorgi sem er a vera til gtu mrg evrpsk tungu-

    ml ori gagnslaus netvddu samflagi. Slk run

    myndi veikja aljlega stu Evrpu og stangast vi

    markmi um jafna samflagstttku allra Evrpuegna

    h tungumli.

    Hin fjlbreyttu tunguml Evrpu eru einrkulegustu og mikilvgustu menningarvermti

    lfunnar.

    skrslu UNESCO um ltyngi er lg hersla a

    tunguml su missandi tki til ess a gera mnnum

    klei a njta grundvallarmannrttinda, svo sem tjn-

    ingarfrelsis, menntunar og tttku samflaginu [8].

    5

  • 2.3 MLTKNI ER GRUND-VALLARSTUNINGSTKNIur fyrr beindust agerir til a vernda og varveita

    tunguml einkum a tungumlakennslu og ingum.

    Giska hefur veri a evrpski markaurinn svii

    inga, tlkunar, stafrslu hugbnaar og alja-

    vingar vefsetra ha velt 8,4milljrumevra ri 2008

    og er talinn munu vaxa um tu prsent ri [9]. Samt

    sem ur fullngir essi upph einungis litlum hluta

    nverandi arfar og framtararfa fyrir samskipti milli

    tungumla. Augljsasta aferin til a tryggja breidd og

    dpt mlnotkunar Evrpu framtarinnar er a nota

    vieigandi tkni, rtt eins og vi notum tknina til a

    leysa arr okkar samgngum, orku og stuningi vi

    fatlaa, svo a eitthva s nefnt.

    Stafrn mltkni sem beinist a llum myndum ritas

    mls og talsamskipta gerir flki klei a vinna saman,

    stunda viskipti, deila ekkingu og taka tt flagsleg-

    um og plitskum rkrum h tungumli og tlvu-

    frni. Hn er o hulinn hluti af knum hugbnai

    sem vi ntum okkur egar vi:

    um upplsinga me notkun leitarvla netinu;

    rnum stafsetningu og mlfri ritvinnsluker;

    skoum umsagnir um vrur netverslun;

    hlustum talaar leibeiningar leisagnarkers bl;

    um vefsur me hjlp netjnustu.

    Mltkni felst msumgrundvallarbnai semmargvs-

    leg ferli innan strri hugbnaarkerfa byggjast . Til-

    gangur hvtbkaraar META-NET er a skerpa sn

    okkar a hversu rosku essi grunntkni s fyrir hin

    msu Evrpuml.

    Evrpa arfnast traustrar og drrar mltknifyrir ll tunguml lfunnar.

    Til a vihalda stu sinni fararbroddi nskpun-

    ar heimsvsu arfnast Evrpa mltkni sem er lg-

    u a llum evrpskum tungumlum og er traust, dr

    og vel samttu helstu hugbnaarumhverfum. n

    mltkni munum vi ekki last gjfulan margmla

    reynsluheim, byggan gagnvirkni ogmargmilun, n-

    inni framt.

    2.4 TKIFRI MLTKNINNAR prentheiminum var strsta tknibyltingin egar far-

    i var a lfalda mynd texta me notkun prentvla.

    Mennuru framaetta uppekkingaratrium, lesa,

    a, og taka saman ekkingu. a uri a ba e-

    ir Edison me upptkur talmli en s tkni bj

    einnig aeins til afrit.

    Stafrn mltkni getur n gert sjlfvirkt allt ferli vi

    ingu, samningu efnis og ekkingarstjrnun fyrir ll

    evrpsk tunguml. Hn getur einnig raungert run

    elilegs strivimts sem byggt er mli og tali fyr-

    ir heimilisraki, vlar, bifreiar, tlvur og vlmenni.

    run viskipta- og inaarverkbnaar er enn frum-

    stigi, en fangar rannsknum og run essu svii

    eru farnir a opna mikla mguleika. Til dmis eru

    vlingar n egar smilega nkvmar afmrku-

    um svium og tilraunabnaur skilar margmla uppls-

    ingum og sinnir ekkingarstjrnun og samningu efnis

    mrgum Evrpumlum.

    Eins og oast er me tkni var fyrsti mltknibna-

    urinn, svo sem raddstr notendavimt og samru-

    ker, raurmemjg srhfa notkun huga og snir

    v o takmarkaa hfni. En geysimikil markastki-

    fri er a nna menntageiranum og skemmtanain-

    ainum ar sem hgt vri a nta mltkni leikjum,

    menningarminjasetrum, menntandi skemmtun, bka-

    sfnum, hermun og ngatlunum. Upplsingajn-

    usta farsma, hugbnaur fyrir tlvustutt tungumla-

    nm, arnmsumhver, sjlfsmatstl og forrit til aupp-

    gtva ritstuld eru fein dmi ar sem mltkni getur

    6

  • leiki mikilvgt hlutverk. Vinsldir flagsmila eins og

    Twitter og Facebook benda til ess a rf s hrari

    mltkni sem getur haldi utan um pst, gert tdrtti

    r umrum, bent hneig skounum, greint tilnn-

    ingar svrum, bent brot hfundartti ea ha uppi

    misnotkun.

    Mltkni hjlpar flki a sigrast eirri ftlunsem felst mlfrilegum fjlbreytileik.

    mltkni felast gfurleg tkifri fyrir evrpskt sam-

    starf. Hn getur hjlpa okkur a takast vi hi kna

    mlumhver Evrpu stareynd a mismunandi

    tunguml lifa elilegu saml evrpskum viskiptum,

    samtkum og sklum. En egnarnir urfa a geta ha

    samskipti yr essi tungumlamrk sem skera hinn sam-

    eiginlega evrpska marka vert og endilangt og me

    asto mltkni m sigrast essari hindrun en styja

    um lei vi hea notkun einstakra tungumla.

    Ef vi horfum enn lengra fram tmann mun nskap-

    andi margmla evrpsk mltkni vera vimiun fyr-

    ir ara aljasamflaginu egar eir fara a virkja

    sn eigin margmla samflg. Lta m mltkni sem

    eins konar stuningstkni sem astoar okkur vi

    a yrstga ftlunina sem fylgir lbreytilegu tungu-

    mlaumhver og gerirmlsamflgin agengilegri hvert

    ru. A lokum m nefna virkt rannsknarsvi innan

    mltkninnar semer notkunmltkni vi bjrgunara-

    gerir hamfarasvum, ar sem rtt framkvmd getur

    skipt skpum. framtinni gtu greind vlmenni bin

    hleikum tilmargmlamlnotkunar bjargamannslf-

    um.

    2.5 GRANIR SEM MLTKNISTENDUR FRAMMI FYRIRtt tluverar framfarir ha ori mltkni s-

    ustu rum er hrai tkniframfara og nskpunar fram-

    leisluvrum enn of ltill. S mltknibnaur sem

    mest er notaur, svo sem mlfri- og stafrnar rit-

    vinnslukerfa, er venjulega einmla og ar a auki einung-

    is til fyrir fein tunguml.

    Nverandi hrai tknilegra framfara er of ltill.

    tt vlingar netinu su gagnlegar til a f okka-

    lega hugmynd um efni skjala glma r vi alls kyns

    vandaml egar rf er mjg nkvmumog fullkomn-

    um ingum. Vegna ess hve mannlegt ml er ki

    er a bi langt og drt ferli sem krefst langtma r-

    mgnunar a skrifa hugbna sem lkir eir mannlegu

    mli og prfa hann vi elilegar kringumstur. Til a

    halda brautryjendahlutverki snu v a takast vi

    r tknilegu granir sem fylgja margmla samflagi

    verur Evrpa v a beita njum aferum til a hraa

    runinni. Hr gti bi veri um a ra framfarir

    tlvutkni og aferir eins og lvirkjun.

    2.6 MLTAKA MANNA OGVLATil a tskra hvernig tlvur fst vi tunguml og hvers

    vegna a er svo ertt a forrita r til ess skulum vi

    lta sem snggvast a hvernig vi tileinkum okkur

    murmli og nnur ml, og skoa san hvernig ml-

    tknikern virka.

    Mannflki last mlkunnttu tvo mismunandivegu: Lrir af dmum og lrir reglurnar sem

    liggja ar a baki.

    Mannflki lrir tunguml tvo mismunandi vegu.

    Ungbrn lra murml sitt me v a hlusta sam-

    skipti foreldra sinna, systkina og annarra lskyldume-

    lima. Um a bil tveggja ra gmul fara au a mynda

    fyrstu orin og stuttar setningar. etta er v aeins

    7

  • mgulegt a brn hafamefddan hleika til mls, og

    til a herma eir v sem au heyra og binda a ker.

    Nm annars mls sar vinni krefst meiri reynslu,

    einkum vegna ess a nemandinn er ekki umlukinn

    mlsamflagi sem hefur mli a murmli. skl-

    um eru erlend ml venjulega numin me v a lra

    mlfrilega formger, orafora og stafsetningu me

    mynsturngum sem lsa mlfrilegri kunnttu

    formi hlutstra reglna, taa og dma. Nm erlends

    tungumls verur erara me aldrinum.

    Hinar tvr megingerir mltknikerfa nema tungu-

    ml svipaan htt og mennirnir. Tlfrilegar (ea

    gagnaknnar) aferir aa mlekkingar r gfurlega

    umfangsmiklum textasfnum. En tt ngjanlegt s

    a nota texta einu mli til a jlfa t. d. stafrna eru

    samhlia textar tveim ea eiri mlum nausynlegir

    egar kemur a jlfun vlrnna ingarkerfa. Algrm

    vlrns nms lrir mynstur sem sna hvernig or,

    orasambnd og heilar setningar eru dd.

    essi tlfrilega nlgun getur krast milljna setninga

    og gi tkomunnar aukast rttu hlutfalli vi magn

    greinds texta. etta er ein sta ess a eir sem reka

    leitarvlar eru ir a safna eins miklu af rituu efni

    og hgt er. Stafrnar ritvinnslukerfum og netjnust-

    ur eins ogGoogle Search ogGoogle Translate byggjast

    tlfrilegum aferum. Meginkostur tlfrinlgun-

    arinnar er s a vlin lrir jtt samfelldri r jlfun-

    arferla, jafnvel tt gin geti veri me msu mti.

    Hin meginaferin mltkni og vlingum er a

    sma regluker. urfa srfringar svii ml-

    vsinda, tlvumlvsinda og tlvunarfri fyrst a skr

    mlfrigreiningu (ingarreglur) og ba til oralista

    (orasfn). etta tekur langan tma og kostar mikla

    vinnu. Reglukern kreast einnig srfriekkingar.

    Sum helstu reglubyggu vlingarkern hafa veri

    stugri run meira en tuttugu r. Meginkosturinn

    vi reglukern er a srfringarnir hafa meiri stjrn

    mlvinnslunni. etta gerir a mgulegt a laga kerf-

    isbundi villur hugbnainum og veita notendum n-

    kvma endurgjf, srstaklega egar reglukern eru not-

    u tungumlanmi. En vegna ess hversu kostnaar-

    sm essi vinna er hefur reglubygg mltkni til essa

    einungis veri ru fyrir strstu tungumlin.

    ar sem styrkleikar og veikleikar tlfrilegu kerfanna

    og reglubyggu kerfanna eru mismunandi svium

    beinast rannsknir umessarmundir a blnduuma-

    ferum sem tengja essar tvr gerir saman. Enn sem

    komi er hafa slkar aferir ekki reynst eins vel

    markashugbnai og rannsknarstofunum.

    Eins og framhefur komi essumkaa byggist alls kyns

    bnaur semnotaur er upplsingasamflagi ntmans

    mltkni. Evrpu etta srstaklega vi svii vi-

    skipta og upplsinga vegna ess hversu margmla ml-

    umhver ar er. En rtt fyrir a mltkni ha tek-

    i miklum framfrum sustu rum eru enn miklir

    mguleikar v a auka gi mltknikerfa. Hr

    eir verur hlutverki slenskunnar evrpsku uppls-

    ingasamflagi lst og mat lagt stu mltkni fyrir s-

    lensku.

    8

  • 3SLENSKA EVRPSKUUPPLSINGASAMFLAGI

    3.1 ALMENN ATRIIUm a bil 330 sund manns eiga slensku a mur-

    mli. Flestir ba slandi [10] en lmargir slending-

    ar eru bsettir erlendis [11], svo sem annars staar

    Norurlndunum, meginlandi Evrpu og Norur-

    Amerku. er slenska murml feinna Vestur-

    slendinga af annarri og riju kynsl [12] en eir eru

    estir komnir um og yr sjtugt. sustu rum hef-

    ur innutningur til landsins aukist til muna og ar me

    hefur eim lga sem tala slensku sem erlent ml tt

    s hpur s enn tiltlulega ltill.

    slenska er notu llum stigum stjrnsslu, sklakernu, viskiptum og llum almennum

    samskiptum landinu.

    tt ekki s kvi um slenska tungu stjrnarskr l-

    veldisins hefur nlega veri fest lg a slenska s op-

    inbert tunguml landsins [13]. Hn er notu llum

    stigum stjrnsslu, sklakernu, viskiptum og llum

    almennum samskiptum landinu.

    Lti er ummllskur slensku og vanalega er tala um

    smvgileg mllskutilbrigi framburi fremur en eig-

    inlegar mllskur. Lfseigast essara mllskutilbriga

    er harmli ar sem lokhlj eru frblsin milli sr-

    hlja noranveru landinu en frblsin annars sta-

    ar, orum eins og pa, vita og taka. nnur mllskuaf-

    brigi eru smm saman a lta undan sga, svo sem radd-

    aur framburur l, m, n undan p, t, k orum eins og

    lpa, svampur, vanta; vestrskur einhljaframburur

    undan ng og nk orum eins og sngur, banki, en mli

    estra er ar tvhlj; og hinn svokallai hv-framburur

    ar sem bori er fram nghlj uppha ora eins og

    hver ar sem estir hafa lokhlji k [14]. hinn bg-

    inn virist sem n mllskutilbrigi su a myndast, svo

    sem tvinnhljun tj ar sem tjald fer a hljma eins og

    a vri tsjald [15]. Einungis er um minnihttar ml-

    lskuafbrigi a ra setningager og fst eirra eru

    landshlutabundin. virast einstaka breytingar vera

    a gerast, srstaklega mli yngra flks, og m ar nefna

    hina svoklluu nju olmynd, eins og a var bar-

    i mig sta g var barin(n), svo og tvkkaa notkun

    framvinduhorfs, vera a, eins og g er ekki a skilja etta

    og eir oru a spila mjg vel. Slk notkun heyrist varla

    hj eldra flki. slenskuna sem tlu er Vesturheimi

    m telja srstaka mllsku (ea mllskur) enda hefur

    orafori ar rast ruvsi en slandi. ar m meal

    annars nefna vestur-slensku orin telefn og kar (sbr. e.

    telephone og car) fyrir smi og bll. hafa ormyndir og

    framburarsrkenni stirna ea jafnvel aukist vestur-

    slensku en hor amestu ea llu slandi. Semdmi

    m nefna mli sem enn lir gu l meal Vestur-

    slendinga.

    9

  • 3.2 SRKENNI SLENSKRARTUNGUslenska er norur-germanskt tunguml sem mynd-

    ar vestur-norrnu mlattina samt freysku og n-

    norsku. Hn er svokalla FSA-tunguml (elileg ora-

    r frumlag-umsgn-andlag) og hefur sgnina jafnan

    ru (ea fyrsta) sti setningar. Vegna rkulegs beyg-

    ingakers er orar hins vegar tiltlulega frjls; kve-

    in or geta stai msum stum n ess a merking

    breytist. Eirfarandi setningar hafa t. d. smumerkingu

    rtt fyrir a r frumlags og andlags ha veri sni

    vi:

    Hundurinn (nefnifall) beit kttinn (olfall).

    Kttinn (olfall) beit hundurinn (nefnifall).

    slenska er FSA-tunguml ar sem sgnin erjafnan ru (ea fyrsta) sti setningar en

    orar tiltlulega frjls.

    slenska er meal tiltlulega frra tungumla ar sem

    frumlag setningar getur stai rum fllum en nefni-

    falli oast nr gufalli en einnig olfalli (og nokkr-

    um tilfellum eignarfalli). eirfarandi setningum er

    t. d. fornafni fyrstu persnu eintlu alltaf frumlag,

    rtt fyrir a standa remur mismunandi fllum:

    g (nefnifall) las bkina.

    Mig (olfall) vantar bkina.

    Mr (gufall) lkar bkin.

    slenskan er beygingaml og hefur gur fll, rj kyn

    og tvr tlur nafnorum, fornfnum, lsingarorum

    og kvena (viskeytta) greininum. Enginn kve-

    inn greinir er notaur mlinu. Auk essa beygjast

    lsingaror bi veikt (kvei) og sterkt (kvei).

    Sagnir beygjast eir persnu, tlu, t, htti og mynd.

    Sagt er a slenskan s bringsml sem ir a ein-

    stk ending er o notu fyrir eiri en eina beygingar-

    formdeild. Fjldi beygingarokka kir svo ker enn,

    annig a margar mismunandi endingar geta stai fyr-

    ir smumlfriformdeild ea formdeildasamsetningu,

    allt eir v hver stofninn er.

    Orafori mlsins er a mestu norrnn auppruna.

    Oraforinn er a mestu norrnn (germanskur) a

    uppruna tt lmrg tkuor ha slst inn mli

    eim ellefu ldum sem lii hafa san land bygg-

    ist. Eir kristnitku ri 1000 voru t. d. lmrg or

    tekin r latnu og vi siaskiptin ri 1550 jukust hrif

    fr sku me ingum trarritum og slmum.

    var sland undir danskri stjrn fr 1380 til 1944 og hrif

    danskrar tungu fr essum tma eru augljs. mis dnsk

    or voru tekin inn mli og mrg eirra uru hluti af

    slensku. armm. a. nefna or eins og gardnur (gardin

    dnsku) og viskustykki (viskestykke dnsku).

    a er opinber stefna a n or skuli sma r slensk-

    um efnivi sta ess a f lnu or r erlendum ml-

    um. ar sem margs konar hljavxl eru algeng s-

    lensku m nota au til ess a mynda ntt or af ru,

    svo sem leysni af lausn, og einnig eru hin lmrgu vi-

    skeyti mlsins notu til ess amynda ntt or af rtum

    sem egar eru til mlinu, svo sem disk-lingur af or-

    inu diskur. Algengast er a mynda n or me sam-

    setningu tveggja ea eiri sjlfstra ora, rtt eins og

    staf-setningar-ora-bk og um-hvers-mla-ru-neyti.

    etta gerir tungumli bi legt og gagnstt.

    Ormyndun slensku er mjg virk.

    Framburur slensku er tiltlulega gagnsr og a mestu

    hgt a segja fyrir um hann t fr stafsetningunni. S

    10

  • sem kann r reglur sem gilda um vensl stafsetning-

    ar og framburar tti v a geta bori fram n or

    sem vera vegi hans vandralaust, svo framarlega sem

    hann greinir rttilega orhlutaskil en au geta ha hrif

    frambur sumra ora. Reglur um herslu ora eru

    einnig mjg einfaldar ar sem aalherslan fellur alltaf

    fyrsta atkvi og aukahersla kemur svo vanalega ann-

    a hvert atkvi eir a, tt a eigi ekki alltaf vi

    samsettum orum.

    Ritmli byggist latneska stafrnu en eru nota-

    ir slensku nokkrir star sem ekki ekkjast t. d. ensku.

    etta eru starnir / (einungis notaur slensku tt

    upprunann megi rekja til fornensku), / (einnig not-

    aur freysku), / (einnig notaur norsku, dnsku

    og freysku) og / (einnig notaur snsku, nnsku,

    eistnesku, sku og ungversku). A auki eru notair s-

    lensku sex broddstar fyrir kvena srhlja: /, /,

    /, /, / og /.

    Ritaa mli hefur breyst tiltlulega lti fr uppha

    ritaldar sem gerir slendingum a klei me nokkurri

    jlfun a lesa fornslenska texta. Meginbreytingar

    stafsetningu undanfrnum ratugumhafa veri niur-

    felling setunnar (sem er enn notu feinum eigin-

    nfnum og ttarnfnum eins og Zphnas ogHaralz)

    og upptaka sta je.

    3.3 NLEG RUNAllt fr hernmi Breta og sar Bandarkjamanna

    heimstyrjldinni sari hefur slenskan ori fyrir mun

    sterkari hrifum fr ensku en dnsku og au hrif hafa

    aukist a mun vi innrei tnlistar, kvikmynda og sjn-

    varpsefnis frBretlandi ogBandarkjunum. Vxtur nets-

    ins hefur einnig auki hrif ensku slensku, enda eru

    um 95% jarinnar netvdd.

    hrif fr ensku eru augljsust lda tkuora r ensku

    slensku en fst essara ora er a nna orabk-

    um og au sjst sjaldan prenti. au eru a auki o lit-

    in hornauga af mlrktarmnnum. Notkun eirra ein-

    skorast v a mestu vi tala ml og a auki m nna

    au opinberum og persnulegum skrifum, svo sem

    tlvupsti, bloggsum o.s.frv.

    Tkuor r ensku eru algeng daglegu tali enmun minna berandi ritmli.

    Ensk hrif mlker virast veruleg. Mrg tku-

    oranna sem notu eru hversdagslega f slenskar end-

    ingar tt nokkur eirra beygist ekki. ar m nefna ns

    (r e. nice), kl (r e. cool), o.s.frv. Stundum er v hald-

    i fram a sumar breytingar setningager og hljker

    slenskunnar, svo sem hi tvkkaa framvinduhorf og

    tvinnhljunin tj sem ur eru nefndar, megi rekja til

    enskra hrifa, en um a er deilt.

    undanfrnum rum hefur miki veri rtt um svo-

    kalla umdmistap slandi eins og mrgum r-

    um lndum. slenskur vinnumarkaur hefur ori s-

    fellt aljlegri sustu rum slensk fyrirtki starfa

    erlendis og erlend fyrirtki starfa slandi. Ensk tunga

    er v hluti af daglegu star essara fyrirtkja og fundir

    og breg samskipti fara iulega fram ensku. er a

    ori algengt a rsskrslur essara fyrirtkja, vefsur

    og anna efni, su a hluta ea llu ensku. Einnig vir-

    ist a vera hlfger tska a slensk fyrirtki beri enskt

    nafn, mist eingngu ea a hluta. Dmi um etta eru

    nfn eins og Icelandair,Actavis,BaugurGroup og Stoir

    Invest [16].

    Anna svi atvinnulfsins ar sem ensk tunga er ber-

    andi er upplsingatkni, en um hana verur betur rtt

    nsta aalkaa.

    3.4 SLENSK MLRKT slenskri mlrkt hefur hersla lngum veri lg

    bi varveislu og eingu slenskrar tungu. etta m sj

    greinilega eirri vinnu sem lg hefur veri uppbygg-

    ingu oraforans me starfsemi missa oranefnda.

    r eru vanalega skipaar sjlfboalium r msum

    11

  • fri- og atvinnugreinum en mlrktarsvi Stofnun-

    ar rna Magnssonar slenskum frum styur vi

    starf eirra. slensk mlnefnd var stofnu 1964 [17]

    en meginhlutverk hennar er a vera stjrnvldum, og

    einkum mennta- og menningarmlaruneytinu, til

    rgjafar um slenska tungu og slenska mlstefnu auk

    ess a semja rlega lyktun um stu tungunnar. s-

    lensk mlnefnd ber byrg eim stafsetningarreglum

    semauglstar eru afmenntamlaruneytinuognotaar

    eru sklakernu. Nefndin hafi frumkvi a stofnun

    Mlrktarsjs en hlutverk hans er a beita sr fyrir og

    styja hvers konar starfsemi til eingar slenskri tungu

    og varveislu hennar [18].

    Stundum er sagt a allir slendingar su mlfringar.

    Bndur og sjmenn, hjkrunarfringar og kennarar

    hringja tvarpsstvar og Stofnun rna Magnssonar

    slenskum frum til a ra hnkra mlfari annarra

    og kvarta undanmlvillum. Flk hefur einlgar hyggj-

    ur af stu tungunnar landinu og heilmiklar umrur

    fara fram um a hvernig best s a varveita mli og

    jafnvel hvort s varveisla s maksins ver.

    slensk mlnefnd er stjrnvldum til rgjafar umslenska tungu og slenska mlstefnu.

    lta estir slendingar tungumli sem kjarna s-

    lenskrar menningar og slenskrar sjlfsmyndar og v

    hefurmiki starf veri unni eim tilgangi a varveita

    a sem best.

    Mist slenskrar mlrktar er Stofnun rna

    Magnssonar slenskum um en meginhlutverk

    hennar er a vinna a rannsknum slenskum fr-

    um og skyldum frigreinum, einkum svii slenskrar

    tungu og bkmennta, a mila ekkingu eim fr-

    um og varveita og ea au sfn sem henni eru falin ea

    hn [19]. Stofnunin skiptist nokkrar deildir sem

    sinna mismunandi ttum slensks mls, bkmennta og

    menningar, svo sem mlrkt, orfri, mltkni, nafn-

    og rnefnafri, handritafri, jfri og aljleg-

    um tengslum.

    Rkistvarpi hefur lngum leiki strt hlutverk var-

    veislu tungunnar, ekki aeins vegna eigin mlstefnu

    heldur einnig vegna vinslla tvarpstta ur fyrr, eins

    og slensks mls og Daglegs mls ar sem mlfringar

    rdduumtungunaogoraforann, ogOr skulu standa,

    ar sem tv li kepptust um a nna rtta merkingu

    sjaldgfra ora og hugtaka. Almennt gegna lmilarn-

    ir mikilvgu hlutverki verndun slenskrar tungu.

    Rkistvarpi hefur lngum leiki strt hlutverk varveislu tungunnar.

    Tuttugu og tvr tvarpsstvar eru landinu og tala

    ml eim llum er a mestu leyti slensku tt ensk-

    an s yrgnfandi tnlistinni sem leikin er. A auki eru

    landinu tu sjnvarpsstvar og tt meiri hluti ess

    efnis sem sjnvarpa er s erlendum tungumlum er

    staa slenskunnar sterk [20]. Allt erlent sjnvarpsefni

    er texta slensku fyrir utan sumt barnaefni sem er

    talsett og egar um beinar tsendingar er a ra fr

    erlendum strviburum segir slenskur ulur vanalega

    fr v helsta sem er a gerast [21].

    Dagur slenskrar tungu hefur veri haldinn htlegur

    san 1996 fingardegi jskldsins Jnasar Hall-

    grmssonar, 16. nvember, og er honum tla a ea

    umrur um slenska tungu [22].

    3.5 SLENSKA MENNTAKERFINUslensk tunga er mikilvgur ttur sklakernu og

    nemendur 1.-4. bekk grunnskla verja a lgmarki

    1.120 mntum viku slenskt ml og bkmenntir.

    5.-7. bekk hefur essi tmi minnka niur 680 mnt-

    ur viku og san 630 mntur viku 8.-10. bekk en

    a er tluvert minna en arar Norurlandajir verja

    12

  • murmlskennslu [23]. framhaldsskla er einnig

    minni tma vari til murmlskennslu en annars sta-

    ar Norurlndunum, ea a lgmarki 20 einingum af

    eim 200 sem krast er til stdentsprfs [24].

    PISA-knnununum sem gerar hafa veri fr rinu

    2000 fr lesskilningur slenskra ungmenna, srstaklega

    drengja, stugt minnkandi. knnuninni 2009 hafi

    standi hins vegar batnanokku og sland var ar ell-

    ea sti og svipari stu og arar Norurlandajir

    a Finnum frtldum [25].

    Hskli slands er eini hsklinn ar semhgt er a taka

    doktorsprf slensku en meistaraprf mlinu er hgt

    a taka fr Manitobahskla Kanada auk Hskla s-

    lands. nokkrir hsklar va um heim bja upp

    B.A.-prf slensku.

    Aeins tveir af eim sj hsklum sem landinu eru hafa

    srstaka mlstefnu ar sem slenska er tilgreind sem op-

    inbertml hsklans. Enska er sfelltmeira notu star

    hsklanna ar sem erlendum kennurum hefur lga

    og ar a auki stefna allir hsklarnir a v a lga er-

    lendum nemendum. Vegna essa fer nmskeium sem

    kennd eru ensku lgandi, sem og doktorsritgerum

    skrifuum v mli. hefur a aukist a slensk-

    ir frimenn skri frigreinar snar ensku og nms-

    efni sklunum er meir enskri tungu [16]. Me v

    a lga slenskutmum sklum landsins m bta s-

    lenskukunnttu nemenda og ba annig betur undir

    virka tttku slensku samflagi.

    Me v a fjlga slenskutmum sklum landsinsm bta slenskukunnttu nemenda og ba annig betur undir virka tttku samflaginu.

    Mltkni gti veri hjlpleg essu sambandi enda

    gefur hn mguleika tlvustuddu tungumlanmi

    sem gerir nemendum klei a njta tungumlsins

    skemmtilegan htt, t. d. me v a tengja orafora

    kvenum texta vi skilgreiningar orunum ea

    vihljskr eamyndbandme vibtarupplsingum,

    svo sem framburi oranna.

    3.6 ALJLEGIR TTIRsland er lti land og raun aeins rrki samflagi

    janna, og v eru hrif slenskra lista, vsindaog fra

    erlendis aeins smvgileg. Feinir slenskir tnlistar-

    menn hafa n vinsldum utan landsins, svo sem Bjrk,

    SigurRs ogGus Gus, en ar sem tnlist eirra er a litlu

    leyti sungin slensku gerir hn lti til ess a auka

    hrur tungumlsins utan landsteinanna. a sama m

    segja um velgengni slenskra rithfunda erlendis sem

    hefur kynnt slenska menningu fyrir rum jum en

    ekki beinlnis slenska tungu. Hins vegar hafa vinsld-

    ir slenskra tnlistarmanna og rithfunda, uppgangur

    og fall slenskra banka og fyrirtkja erlendis, svo

    og herslur slands umhversvna orku vaki athygli

    annarra ja slandi og skila sr aukinni umllun

    um landi erlendumlmilumoglgun feramanna

    til landsins. slendingasgurnar, vkingarnir og slenski

    hesturinn eru v ekki lengur einu slensku rsjirnir

    sem heilla tlendinga.

    hugi slensku aljavettvangi fer vaxandi.

    slensk tunga hefur ltil hrif nnur tunguml og a-

    eins rf slensk or hafa rata sem tkuor inn nnur

    ml. ar eru langalgengust or dregin af eiginnafninu

    Geysir sem mrgummlum tkna goshver. er enska

    ori eider tkuorr slensku, komi af orinuur, og

    slenska ori tlt er almennt nota erlendis um mmta

    gang slenska hestsins.

    Aukinn hugi slenskri tungu og menningu kemur

    greinilega fram vaxandi lda eirra nemenda sem

    stunda slenskunm, mist slandi ea rum lnd-

    um. Vi Hskla slands jkst ldi erlendra nema s-

    lenskunmi um nrri 100% milli ranna 2005 og 2007

    13

  • og ri 2008bauHsklinn fyrsta sinnuppnmslei

    hagntri slensku tlaa eim sem vilja lra tunguml-

    i ness a leggja herslu hinn akademska tt nms-

    ins. slenska er n kennd um 40 hsklum utan slands

    og styrkir sland 18 eirra rhagslega [16]. er boi

    upp sjlfst slenskunmskei lmrgum lndum,

    svo sem fyrrum slendingabyggumKanada og Banda-

    rkjanna, og milli 300 og 400manns fara daglega inn

    heimasu Icelandic Online [26].

    Staa slensku myndi vntanlega styrkjast aljavettvangi ef landi gengi

    Evrpusambandi.

    slensk tunga er hvergi gjaldgeng aljlegum sam-

    skiptum en v hefur veri haldi fram a staa mlsins

    myndi styrkjast aljavettvangi ef landi gengi Evr-

    pusambandi [27], ar sem slenska yri ar me eitt

    af opinberum tungumlum sambandsins [28]. Einnig

    er hgt a nta mltkni til a bregast vi eirri gn

    sem stafar af enskumev a ra vlingar ogmarg-

    mla upplsingaheimt og hjlpa annig til vi a lg-

    marka hagri sem felst v, bi fyrir einstaklinga

    og viskiptal, a hafa ekki ensku a murmli.

    3.7 SLENSKA NETINU jn 2010 hfu um a bil 95% jarinnar agang

    a netinu [29] og aldurshpnum 35-44 ra var hlut-

    falli allt a 100%. byrjunma 2011 voru 197.000, ea

    61,8% jarinnar, skrir notendur Facebook [30].

    Nstum allir slendingar nota neti.

    ri 2010 voru 25.000 .is ln skr [31] og um a bil

    5.600 ln voru landinu fyrir utan .is ker [32]. Fjldi

    vefsetra er talinn kringum 7.500 en ar eru hvorki

    taldar bloggsur innan .is lna n ver erlendum ln-

    um eins og blogspot.com og wordpress.com.

    Neti er ori svo vinslt a ri 2010 gerist a

    fyrsta sinn a auglsendur eyddu meiri peningum aug-

    lsingar netinu en prentmilunum [33]. Slkt hef-

    ur reyndar ekki enn gerst slandi en virist stefna

    tt. Af sj vinslustu veunum slandi eru rr

    frttamilar (mbl.is, visir.is, pressan.is). Neti hefur

    einnig a miklu leyti teki vi af smaskrnni ar sem

    upplsingasan ja.is er mmti mest notai vefur lands-

    ins. Arir vinslir ver eruGoogle, Facebook ogYouTu-

    be [34] sem allir bja n upp slenskt notendavimt.

    Vxtur netsins er mikilvgur fyrir mltkni a tvennu

    leyti. Annars vegar er ldi texta stafrnu formi algjr

    gullnma egar kemur a greiningu notkun tungu-

    mla, og srstaklega egar safna arf tlfrilegum

    upplsingum. Hins vegar bur neti upp ldann all-

    an af notkunarsvium fyrir mltkni.

    Vxtur netsins skiptir miklu mli fyrir mltkni.

    Leitarvlar eru n efamest notai hugbnaurinn net-

    inu en r nta margs konar sjlfvirka mlvinnslu eins

    og vi munum sj sari hluta essa rits. ar er um a

    ra margbrotna mltkni sem er breytileg eir tungu-

    mlum. slenskuarf til dmis a taka tillit tilmismun-

    andi beygingarendinga nafnora, lsingarora og sagna,

    svo og hljavxla stofni, eins og t. d. ormyndunum

    svartur og srt. Notendur netsins geta einnig ntt ml-

    tkni annan htt, svo sem me sjlfvirkum ingum

    vefsna mrg tunguml. egar liti er grarlegan

    kostna vi mennska ingu essa efnis vekur furu

    hversu lti hefur veri gert til a ra slkan ingar-

    bna. stunam ef til vill rekja til ess hversumarg-

    slungin slensk tunga er raun, svo og hversu lbreytta

    tkni arf til a sma dmigeran mltknibna.

    nsta kaa er a nna yrlit um mltkni og helstu

    afurir hennar en einnig er kynnt mat stu mltkni

    fyrir slensku.

    14

  • 4MLTKNI FYRIR SLENSKU

    Undir mltkni falla m. a. hugbnaarker sem hnn-

    u eru til ess a vinna me mannlegt ml. Tunguml

    eru bi ritu og tlu en tt talmli ha rast

    undan og s annig elilegasta formmllegra samskipta

    er ritmli a form sem nota er til geymslu og mil-

    unar margbrotinna upplsinga og mestallrar mannlegr-

    ar ekkingar. Til a vinna me og framleia tunguml

    essummismunandi myndum hfum vi annars vegar

    taltkni og hins vegar textatkni, en hvorttveggja bygg-

    ist orasfnum, mlfrireglum og merkingarfri.

    etta ir amltkni tengir tungumli vimismun-

    andi form ekkingar, h v hvernig henni er mila

    ( tali ea texta, sj mynd 1).

    llum samskiptum tengjum vi tungumli rum

    samskiptahttum og upplsingamilum tali getur

    fylgt ltbrag og andlitstjning. Stafrnir textar tengj-

    astmyndumog hlji. kvikmyndumgetur komi fram

    bi tala og rita ml. Tal- og textatkni skarast v

    og ttast saman vi margs konar ara tkni sem grei-

    ir fyrir rvinnslu lhtta samskipta og margmilunar-

    gagna.

    Hr eir verur alla um meginverksvi mltkni,

    . e. mlrni, veeit, taltkni og vlingar. Undir

    etta fellur verkbnaur og grundvallartkni eins og:

    stafrni

    ritsto

    tlvustutt tungumlanm

    upplsingaheimt

    tdrttur upplsinga

    samantekt texta

    spurningasvrun

    talkennsl

    talgerving

    Mltkni er mta og ugt rannsknarsvi og hgt er

    a vsa lda inngangstexta um svii, t. d. [35, 36,

    37, 38, 39]. ur en ofannefndum notkunarsvium

    og bnai vera ger skil verur hgun dmigers ml-

    tknikers lst stuttlega.

    4.1 HGUNMLTKNIBNAAR dmigerum hugbnai til mlvinnslu felast nokkr-

    ar einingar sem endurspegla mismunandi tti tungu-

    mlsins. Mynd 2 snir mjg einfaldaa byggingu rit-

    vinnslukers. rjr fyrstu einingarnar sna a ger og

    merkingu lagstextans:

    1. Forvinnsla: hreinsun gagna, afnm snis, greining

    lagstungumls, o.s.frv.

    2. Mlfrigreining: sgnin fundin, andlg hennar og

    kvisor, og setningagerin greind.

    3. Merkingargreining: einring ora (fundi t hver

    er merking orsins tilteknu samhengi); greining

    endurvsunar (t. d. hvaa fornafn vsar til hvaa

    nafnors setningunni) og stagengla; og merking

    setningarinnar snd ann htt a tlva geti lesi

    hana.

    Eir greiningu textans geta verkbundnar einingar s

    um msar arar agerir, svo sem sjlfvirka samantekt

    15

  • fjlhtta- og margmilunar-

    tknimltkni

    taltkni

    textatkni

    ekkingartkni

    1: Samhengi mltkninnar

    lagstexta og uppettingu gagnagrunni. etta er ein-

    fldu lsing uppbyggingu verkbnaarins en gefur

    innsn a hversu kinn mltknibnaur er.

    A lokinni kynningu helstu verksviummltkninnar

    verur ge stutt yrlit yr yrlit yr nverandi stu

    mltknirannskna og mltknimenntunar, og a lok-

    um drepi rannsknarverkefni sem mist er loki ea

    eru gangi. San verur ger grein fyrir mati srfr-

    inga stu helstu mltknitla og mlfanga t fr

    msum mlikvrum, s. s. agengi, roska og gum.

    Heildarstaa mltkni fyrir slensku er svo dregin sam-

    an tu lok essa kaa (mynd 8). au hugtk og ml-

    fng sem eru feitletru textanum er a nna essari

    tu. framhaldi af essu er mltknistuningur vi s-

    lensku borinn saman vi stuning vi nnur tunguml

    sem alla er um essari ritr.

    4.2 HELSTU VERKSVI essum kaa verur alla um mikilvgustu ml-

    tknitl og mlfng, og ge yrlit yr mltkni s-

    landi.

    4.2.1 MlrniFlestir sem hafa unni me ritvinnsluker eins og

    Microso Word vita a v er stafrnir sem bend-

    ir stafsetningarvillur og stingur upp leirttingum.

    Fyrstu stafrnarnir bru orin textanumsaman vi safn

    rtt ritara ora. N er essi hugbnaur mun r-

    ari. Me v a nota srhf algrm tilmlfrigrein-

    ingar m greina villur beygingu (svo sem ranga eign-

    arfallsendingu) og setningager, eins og egar sgnina

    vantar ea egar samrmi er milli sagnar og frumlags

    (t. d. g *skrifar brf ). Hins vegar munu fstir stafrnar

    nna villur eirfarandi dmum:

    lagstexti

    forvinnsla mlfrigreining merkingargreining verkbundnar einingar

    frlag

    2: Dmiger kershgun vi textavinnslu

    16

  • lagstexti stafrni mlrni leirttingartillgur

    tlfrilegt mllkan

    3: Mlrni (tlfrileg; reglubygg)

    g var um etta leiti nsta leyti.

    Hn segir a mir sn ha ara sn mli.

    Hann tti hafa stirt stu sna.

    Til ess a hgt s a fst vi slkar villur arf a greina

    samhengi textans, t. d. egar kvea skal hvort lsingar-

    or eigi a vera me einu n-i (kvenkyn) ea tveim (karl-

    kyn), eins og eirfarandi dmi:

    Hann er farinn.

    Hn er farin.

    Greining slkra villna byggist mist srstakrimlfri-

    lsingu fyrir hvert tunguml, sem mikinn tma og sr-

    ekkingu arf til a fella inn hugbnainn, ea tl-

    frilegu mllkani. Slkt lkan reiknar lkurnar v

    a tilteki or birtist kvenu umhver (t. d. eir v

    hvaa or fara undan og eir). Til dmis er hann er

    farinn lkleg oraruna en hn er farinn er a ekki. Tl-

    frilegu mllkani af essu tagi m koma upp sjlf-

    virkan htt me v a nota miki af (rttum)mlggn-

    um (mlheild). Bar aferirnar (reglusmi og tl-

    frilkan) hafa einkum veri raar fyrir ensk ml-

    fng og a er ekki auvelt a yrfra r slensku sem

    hefur sveigjanlegri orar, takmarkaa mguleika

    samsetningu ora og rkulegra beygingarker.

    Mlrni er ekki bundin vi ritvinnsluker; hn erlka notu ritstoarkerfum.

    Mlrni er ekki bundin vi ritvinnsluker; hn er lka

    notu ritstoarkerfum, . e. hugbnaarumhver til

    a skrifa handbkur og nnur rit samkvmt kven-

    um stlum fyrir kna upplsingatkni, heilbrigis-

    geirann, verkfri og eira. Af tta vi kvartanir og

    skaabtakrfur viskiptavina vegna rangrar notkunar

    sem rekja m til illskiljanlegra leibeininga leggja fyrir-

    tki sfellt meiri herslu gi tknilegra leibeininga,

    sama tma og au stefna aljlegan marka (me

    ingum og stafrslu). Framfarir mlvinnslu hafa

    leitt til runar ritstoarbnai sem astoar hfunda

    tknilegra leibeininga vi a velja or og setningager

    sem samrmist inaarreglum og skorum fyrirtkja

    notkun ora.

    Stafrnir hefur veri til fyrir slensku fr v seint

    nunda ratugnum egar Fririk Sklason ehf. (Frisk

    Soware) rai stafsetningaforritiPka. Forriti hef-

    ur san veri uppfrt og endurbtt. a er til fyrir MS

    Oce og er miki nota. Arir stafrnar hafa einnig

    veri hannair. ri 2002 rai hollenska fyrirtk-

    i Polderland stafrni fyrir MS Oce og einnig er til

    stafrnir opnum hugbnai fyrir GNU/Linux forrit,

    byggur Aspell. essi forrit skoa eingngu stk or

    og ra v ekki vi margar algengar stafsetningarvillur.

    Frumger a samhengishum stafrni hefur veri felld

    inn LanguageTool [40] og vinnur me OpenOce.

    S stafrnir gti hugsanlega mynda grunninn a ml-

    frirni, en slkt forrit er ekki til fyrir slensku.

    Fyrir utan stafrna og ritsto er mlrning einnig mikil-

    vg fyrir tlvustutt tungumlanmog henni er lka beitt

    17

  • vi sjlfvirka leirttingu fyrirspurnum sem sendar eru

    veeitarvlum eins og tillguker Google ttiru vi:.

    4.2.2 VeeitLeit vefnum, svo og innri netum og stafrnum

    bkasfnum, er vntanlega a svi ar sem mltkni

    er mest notu n dgum, en er fremur skammt

    veg komin. Leitarvlin Google, sem kom fram sjn-

    arsvii 1998, er n notu 80% allra veeita heim-

    inum [41]. San 2004 hefur sgnin ggla veri not-

    u slensku tt hn ha ekki enn komist prentaar

    orabkur. Hvorki leitarvimt Google n framsetn-

    ing niurstana hefur teki grundvallarbreytingum fr

    fyrstu tgfu. njustu tgfu bur Google reyndar

    upp leirttingar ranglega stafsettumorumoghefur

    n btt vimerkingarlegum leitarmguleikum semgeta

    btt nkvmni leitarinnar me v a greina merkingu

    ora samhengi leitarorsins [42]. Velgengni Google

    snir a me stru gagnasafni og skilvirkum aferum

    vi a lykla ggnin getur tlfrileg afer skila vel

    viunandi niurstum.

    egar um knari upplsingaleit er a ra er nausyn-

    legt a nta dpri mlfriekkingu til textatlkunar.

    Tilraunir me orafng eins og tlvutk samheitasfn

    og verufrileg mlfng (s. s. WordNet fyrir ensku og

    GermaNet fyrir sku) hafa snt verulega bttan rang-

    ur a nna sur ar sem samheiti vi leitarori koma

    fyrir, svo sem hagnaur, arur, gri og bati ea jafnvel

    arskyldari or.

    Nsta kynsl leitarvla verur a vera tbinmun rari mltkni.

    Nsta kynsl leitarvla verur a vera tbinmun r-

    ari mltkni, einkum til a ra vi leitartexta formi

    spurningar ea annars konar setningar sta einstakra

    leitarora. Til a bregast vi fyrirspurninni Lttu

    mig f lista yr ll fyrirtki sem voru yrtekin af r-

    um fyrirtkjum sustu mm rin arf mltkniker

    a framkvma bi setningagreiningu og merkingar-

    greiningu fyrirspurnarinnar og hafa atriisoraskr til

    a kalla fram vieigandi skjl jtvirkan htt. Til a

    unnt s a gefa viunandi svar arf a beita setningalegri

    ttun til greiningar mlfrilegri formger setning-

    arinnar og greina a veri s a leita a fyrirtkjum sem

    hafa veri yrtekin en ekki eim fyrirtkjum sem tku

    yr nnur fyrirtki. arf a skilgreina sambandi s-

    ustu mm r svo hgt s a kvara vi hvaa r er tt.

    A lokum arf a mta leitarfyrirspurnina vi grynni

    af skipulgum ggnum svo a nna megi upplsing-

    arnar sem leita er a. etta er kalla upplsingaheimt

    og felur sr leit a skjlum og vgisrun eirra. Til

    ess a hgt s a ba til lista yr fyrirtki arf ker

    einnig a ekkja kveinn orastreng skjali sem nafn

    fyrirtkis, en a ferli kallast nafnakennsl.

    Enn meiri grun felst v a mta leitarfyrirspurnina

    vi skjl rum tungumlum. vermla upplsinga-

    heimt felur sr sjlfvirka ingu leitarfyrirspurnar yr

    ll mguleg tunguml og san ingu niurstan-

    anna aur yr markmli.

    N er ggn auknum mli a nna ru snii en

    sem texta og v er orin til rf jnustu sem gefur

    kost margmilunarupplsingaheimt me v a leita

    a myndum, hlji ea myndbndum. egar um er a

    ra hlj- og myndbandsskrr arf srstk talkennsla-

    eining a breyta tali texta (ea hljritun) sem san er

    hgt a mta vi leitarfyrirspurnina.

    beygingarmlum eins og slensku er mikilvgt a hgt

    s a leita a llum beygingarmyndum ors einu sta

    ess a urfa a leita a hverri mynd srstaklega. etta

    m gera me asto gagnagrunnsins Beygingarlsing s-

    lensks ntmamls, BN [43], sem raur hefur ver-

    i Stofnun rna Magnssonar slenskum frum.

    Gagnagrunnurinn hefur a geyma um a bil 280.000

    beygingardmi me meira en 5,8 milljnum beyging-

    18

  • fyrirspurn notanda

    vefsur

    forvinnsla spurnargreining

    forvinnsla merkingarvinnsla lyklun

    mtun og run eftir mikilvgi

    leitarniurstur

    4: Veeit

    armynda. Hver frsla inniheldur nefnimyndina, or-

    myndina, orokkinn og beygingartti nafnora, sr-

    nafna, lsingarora, sagna og atviksora.

    Fyrir nokkrum rumrai fyrirtki Spurl leitarvlina

    Emblu sem ntti ennan gagnagrunn. Sama algrm er

    nota vi leit slensku smaskrnni og nokkrum r-

    um sum. Google leitarvlin er nbin svipuumh-

    leikum, en ekki eins margttum.

    4.2.3 TalsamskiptiTalsamskipti eru eitt margra verksvia sem byggjast

    taltkni, . e. tkni til a vinna me tala ml. Talsam-

    skiptatkni er notu til a sma vimt sem gerir not-

    andanum klei a tala vi tlvuna sta ess a nota

    tlvuskjinn, lyklabor og ms. N dgum nta fyr-

    irtki raddstr notendavimt miss konar sjlfvirkri

    og hlfsjlfvirkri smajnustu vi viskiptavini, starfs-

    menn ea viskiptaflaga. Helstu atvinnugreinar sem

    nta slk raddstr vimt eru bankastarfsemi, birgjar,

    almenningssamgngur og arskiptafyrirtki. Talsam-

    skiptatkni m t. d. einnig nota vimti leisgutkja

    blum og sta myndrns vimts og snertiskja sem

    notendavimt snjallsmum.

    Taltkni er notu til a sma vimt sem gerirnotandanum kleift a tala vi tlvuna sta ess

    a nota tlvuskjinn, lyklabor og ms.

    Talsamskipti byggjast ferns konar grundvallartkni:

    1. Sjlfvirk talkennsl kvarahvaaornotandinn seg-

    ir tiltekinni seg.

    2. Mlskilningur greinir setningafrilega formger

    segarinnar og tlkar hana t fr vikomandi ker.

    3. Samrustjri kvarar hva arf a gera t fr lagi

    notandans og mguleikum kersins.

    4. Talgerving breytir svari kersins hlj semnotand-

    inn nemur.

    Eitt erasta vifangsefni talkennslabnaar er a

    greina rtt au or sem notandinn segir. v arf ann-

    ahvort a takmarka hugsanlegar segir notandans vi

    afmarka mengi lykilora ea byggja upp mllkn sem

    19

  • lag tals merkjavinnsla

    frlag tals talgerving hljfrileg uppfletting og skipulagning tnfallsmlskilningur og

    samra

    kennsl

    5: Talsamskiptaker

    n yr stran hluta sega elilegu mli. Me vlrn-

    um nmsaferum er lka hgt a koma upp mllkn-

    um sjlfvirkan htt r talmlsheildum, strum sfn-

    umhljskrame textaumritun. Takmrkun leylegra

    sega leiir venjulega til vingarar notkunar talvi-

    mtinu og getur ha au hrif a notendur taki v ekki

    vel; en smi viamikilsmllkans, fnstilling ess og vi-

    hald eykur kostnainn vi ker verulega. Raddstr

    notendavimt sem nta mllkan og gefa notandan-

    um sveigjanleika v hvernig hann ber fram erindi sitt

    byrjun t. d. heilsa meHva get g gert fyrir ig? eru

    yrleitt sjlfvirk og f jkvari vibrg notenda.

    Fyrirtki nota yrleitt upptkur me lestri atvinnu-

    manna til a mynda frlag talvimtsins. stlu-

    um segum ar sem oralagi er ekki h tilteknu sam-

    hengi ea kvenumnotanda getur etta veri fullkom-

    lega ng til a notandinn s sttur. En egar segirnar

    eru breytilegar getur tnfalli ori elilegt vegna ess

    a btar r mismunandi hljskrm eru tengdir saman.

    Talgervlar eru sfellt a vera betri v a skila breyti-

    legum segum sem hljma elilega, en m enn bta

    .

    Vimt talsamskiptamarkanum hafa veri stl-

    u umtalsvert undanfrnum ratug a v er snr

    a hinum msu tknieiningum eirra. Einnig hef-

    ur ori veruleg markassamjppun fyrirtkja tal-

    kennslum og talgervingu. innanlandsmarkai G20-

    lndunum (lmennum og efnahagslega sterkum lnd-

    um) hafa mm aljleg fyrirtki veri rkjandi, og

    Evrpu einkum tv Nuance (bandarskt) og Loqu-

    endo (talskt). ri 2011 tilkynnti Nuance um yrtku

    Loquendo annig amarkassamjppunin heldur enn

    fram.

    rr talgervlar fyrir slensku hafa veri settir mark-

    a. Formendabyggur talgervill var upphaega gerur

    kringum 1990 og annar, byggur hljatvenndum

    (Snorri), um 2000. Bir voru einkum notair af blind-

    um og sjnskertum en ttu ekki ngu fullkomnir til

    notkunar kerfum og verkbnai fyrir almennan mark-

    a.

    ri 2005 var binn til nr talgervill (Ragga) samvinnu

    Hskla slands, Smans ogHex hugbnaar. Talgervill-

    inn byggist tkni Nuance sem s um jlfun hans.

    Hann hefur veri notaur dlti verkbnai fyrir al-

    mennanmarka enmrgumnotendumnnst raddg-

    in ekki fullngjandi. ar sem gi tiltkra talgervla

    ykja ekki ngu mikil hefur Blindraflagi gengist fyr-

    ir run ns talgervils samvinnu vi Hskla slands,

    Hsklann Reykjavk og plska hugbnaarfyrirtki

    Ivona. essi talgervill hefur tvr raddir (Karl og Dru)

    og verur tilbinn sar essu ri (2012) [44].

    Stakoragreinir var raur fyrir slensku ri 2003.

    Hann skilai gum rangri greiningu, ea um 97%

    nkvmni. hefur slenskur stdent viTokyo Institu-

    te of Technology hanna frumger af ker fyrir sjlfvirk

    oraaumskennsl slensku. Ker ni 67,5% oran-

    20

  • kvmni [45]. Hvorugt essara kerfa hefur veri nota

    verkbna fyrir almennan marka. Um mitt r 2011

    hfuHsklinn Reykjavk ogMltknisetur samvinnu

    vi Google um undirbning a smi talekkjara fyrir

    slensku [46].

    Miklar breytingar m sj framundan vegna tbreislu

    snjallsma sem ns vettvangs fyrir tengsl fyrirtkja og

    viskiptavina, vibt vi venjulega sma, venn og

    tlvupst. essar breytingar munu einnig hafa hrif

    ntingu taltkninnar. Notkun raddstru vimti

    venjulegra sma mun fara minnkandi en mikilvgi tal-

    asmls sem notendavns samskiptamta vi snjallsma

    er sfellt a aukast. a sem knr essa run er einkum

    aukin nkvmni talkennslum hummlanda eim

    upplestrarkerfum semegar eru boi semmilg jn-

    usta fyrir notendur snjallsma.

    4.2.4 VlingarHugmyndina a v a nota tlvur til a a mannleg

    ml m rekja til rsins 1946 og var henni fylgt eir me

    umtalsveru rmagni til rannskna sjtta ratug s-

    ustu aldar og aur eim nunda. Samt sem ur hafa

    vlingar ekki n a standa undir eim vntingum

    um sjlfvirkar ingar milli tungumla sem r gfu

    upphafsrunum.

    Einfaldasta ger vlrnna inga felst v askipta t orum ru mlinu fyrir or r hinu

    mlinu.

    Einfaldasta ger vlinga felst v a skipta t orum

    rumlinu fyrir or r hinumlinu. etta getur veri

    gagnlegt efnissvium ar sem nota er mjg afmarka

    og stala ml, svo sem veurfregnum. En til ess a

    ing mli sem er ekki eins stala veri viunandi

    arf a fella strri textaeiningar (orasambnd, mls-

    greinar, jafnvel heilar efnisgreinar) sem nkvmast a

    samsvarandi einingum markmlinu. Helstu vandkv-

    in felast v a mannlegt ml er margrtt. Margrni

    skapar vanda mrgum svium, svo sem vi einringu

    merkingar orasviinu (villa er bi mistk og veg-

    legt hs), og fallstjrn setningafrisviinu, eins og :

    ewoman saw the car and her husband, too.

    Konan s blinn ogmaurinn hennar lka.

    Konan s blinn ogmanninn sinn lka.

    Ein lei til a ba til vlingarker er a nota ml-

    frilegar reglur. egar tt er milli nskyldra tungu-

    mla getur afer beinna umskipta veri fsileg, eins og

    dminu hr a ofan. En reglubygg ker (bygg

    mlfrilegri ekkingu) greina o lagstextann og skapa

    tknbyggtmillistig sem textimarkmlsins er san leidd-

    ur af. rangur essarar aferar er undir v kominn

    a til s yrgripsmiki orasafn me beygingarlegum,

    setningafrilegum og merkingarlegum upplsingum,

    samt stru safni mlfrireglna sem jlfair mlfr-

    ingar hafa sma af vandvirkni. a er langt og arme

    drt ferli a koma essum forsendum upp.

    sari hluta nunda ratugarins egar tlvur uru -

    ugri og drari jkst hugi a nta tlfrileg lkn

    vlingum. Tlfrileg lkn byggjast greiningu tv-

    mla mlheilda, svo sem Europarl hlistu mlheild-

    arinnar, sem hefur a geyma ingskjl Evrpuingsins

    21 Evrpumlum. Ef ng er af ggnum virka tlfri-

    legar vlingar ngilega vel til ess a gefa nokkurn

    veginn rtta merkingu texta erlendu tungumli me

    v a skoa samhlia texta og greina lkleg oramynst-

    ur. lkt ekkingarknnum kerfum skila tlfrilegar

    (ea gagnaknnar) vlingar o mlfrilega rngu

    frlagi. Kosturinn vi gagnaknnar vlingar er s a

    r eru ekki einsmannasfrekar, og einnig geta r r-

    i vi mis mlleg srkenni (s. s. mlshtti og ortk)

    sem fara forgrum ekkingarknnu kerfunum.

    Styrkleikar og veikleikar ekkingarkninna og gagna-

    kninna vlinga eru mismunandi svium og v

    21

  • tlfrileg vling

    frumtexti

    marktexti

    textagreining (snimtun, beyg- ingarfri, setningafri, o.s.frv.)

    mlmyndun

    ingarreglur

    6: Vlingar (tlfrilegar; reglubyggar)

    einbeita vsindamenn sr nori a blnduum a-

    ferum sem sameina aferafri beggja. Ein aferin

    er s a nota bi ekkingarkni og gagnakni ker

    og lta svo srstaka valeiningu kvea hvert s besta fr-

    lag hverrar setningar. egar um er a ra lengri setn-

    ingar en 12 or vera niursturnar sjaldnast full-

    komnar. Betri afer er a sameina bestu hluta hverrar

    setningar rmrgum frlgum; etta getur veri tiltlu-

    lega ki ar sem samsvaranir mismunandi mguleika

    eru ekki alltaf augljsar og v arf a samskipa eim.

    Vlingar milli slensku og annarra mla erumjg snnar.

    Vlingar milli slensku og annarra mla eru mjg

    snnar. Vegna lbreyttramguleika til smi samsettra

    ora er o ertt a greina or og hafa ngilega yrgrips-

    miki orasafn; frjls orar og sagnaragnir skapa m-

    is vandaml greiningu, og auugt beygingarker veld-

    ur vandkvum vi a merkja rtt ll beygingaratrii

    s. s. kyn, fall, tlu, htt, t, o.s.frv.

    run vlinga fyrir slensku hefur ekki ori kja

    mikil. Stefn Briem, sjlfsttt starfandi frimaur,

    hefur unni a vlingum san snemma nunda

    ratugnum og hefur hanna vlingarker fyrir s-

    lensku. ri 2008 opnai hann vefnum keypis jn-

    ustu sem bur upp ingar milli slensku og riggja

    annarra tungumla (ensku, dnsku og esperant) [47].

    Hrafn Losson, kennari vi Hsklann Reykjavk, og

    samstarfsmenn hans hafa hanna reglubyggt grf-

    ingaker r slensku ensku, grundvalla Apertium-

    verkvangnum [48]. Fortgfa er n vefnum [49].

    Google Translate hefur ge kost ingum r og

    slensku san 2009. Gin voru heldur ltil byrjun en

    hafa aukist.

    Enn m auka gi vlingarkerfa verulega. Helstu

    vandkvin felast algun mlfanganna a tilteknum

    efnissvium ea notendahpum, og samttingu tkn-

    innar vi vinnuferli sem n egar eru bin oragrunni

    og ingarminni. Anna vandaml er a est nver-

    andi ker erumiu vi ensku og sinna einungis ing-

    um milli slensku og rfrra annarra mla. etta leiir

    til rekstra ingarinu og vingar notendur vl-

    rnna inga til a lra mismunandi oraktunartl

    fyrir mismunandi ker.

    Matskeppnir ntast vel til a bera saman gi vl-

    ingarkerfa, mismunandi aferafri og frammistu

    eirra gagnvart mismunandi tungumlaprum. Taan

    hr eir, sem unnin var innan Euromatrix+ verkefnis

    Evrpusambandsins, snir tkomu allra para milli 22 af

    23 opinberum tungumlumEvrpusambandsins. (rska

    var ekki me samanburinum.) Niurstum er ra-

    a samkvmtBLEUeinkunnakvara, ar semhrri ein-

    kunn fst fyrir betri ingu [51]. Mennskur andi

    myndi n um 80 stigum.

    22

  • Markml Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

    EN 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5

    7: Vlingar milli 22 Evrpusambandstungumla Machine translation between 22 EU-languages [50]

    Bestu niursturnar ( grnum og blum lit) feng-

    ust fyrir tunguml sem njta gs af umfangsmikl-

    um samhfum rannsknartlunum, sem og af tilvist

    margra samhlia mlheilda (t. d. enska, franska, hol-

    lenska, spnska og ska). au tunguml sem verr koma

    t eru merkt me rauu. au skortir annahvort slkar

    rannsknartlanir ea eru elislk rum tunguml-

    um (t. d. ungverska, maltneska og nnska).

    Ger mltknibnaar felur oft sr fjldaundirverktta sem ekki eru alltaf snilegirnotendunum en gegna ingarmiklum

    jnustuhlutverkum bak vi tjldin.

    4.3 NNUR VERKSVIGer mltknibnaar felur o sr lda undir-

    verktta sem ekki eru alltaf snilegir notendunum en

    gegna ingarmiklum jnustuhlutverkum bak

    vi tjldin. essir verkttir byggjast allir mikilvgum

    rannsknarefnum sem hafa ori a sjlfstum und-

    irgreinum innan tlvumlvsinda. Spurningasvrun er

    t. d. virkt rannsknarsvi og tengslum vi a hafa

    markaar mlheildir veri byggar upp og vsindasam-

    keppnir haldnar. Spurningasvrun felur sr anna og

    meira en lykiloraleit (ar sem leitarvlin svararme v

    a skila af sr safni skjala sem gtu vara efni) og ger-

    ir notendum klei a spyrja beinskeyttra spurninga sem

    ker svarar einkvman htt. Til dmis:

    Spurning: Hversu gamall var Neil Armstrong egar

    hann steig fti tungli?

    Svar: 38 ra.

    tt spurningasvrun s augljslega af smu rt og vef-

    leit er hn n fyrst og fremst yrheiti yr rannsknar-

    spurningar eins og: hvaa tegundir spurninga eru til og

    23

  • hvernig a fst vi r; hvernig a greina og bera sam-

    an au skjl sem hugsanlega hafa a geyma svari (veita

    au samrmanleg svr?); og hvernig a veia afmark-

    aar upplsingar (svari) t r skjali ruggan htt n

    ess a hunsa samhengi.

    etta tengist upplsingatdrtti, svii sem var srlega

    vinslt og hrifarkt tmum tlfribyltingarinnar

    tlvumlvsindum snemma tunda ratug sustu ald-

    ar. Me upplsingatdrtti er reynt a bera kennsl

    tilteknar upplsingaeiningar tilteknum skjalaokkum,

    svo sem a greina helstu tttakendur yrtku fyrir-

    tkja eins og fr eim er greint umllun dagblaa.

    Anna svi sem hefur veri rannsaka er frsagnir af

    hryjuverkum. ar er helsti vandinn a fella textann

    a snimti sem tilgreinir brotamann, skotmark, tma,

    stasetningu og aeiingar atviksins. Slk tfylling efn-

    isbundinna snimta er megineinkenni upplsingat-

    drttar og hann er v anna dmi um tkni bak vi

    tjldin sem myndar vel afmarka rannsknarsvi sem

    san arf a fella inn vieigandi verkbna.

    Flkinn hugbnaur til textagreiningar ogmlmyndunar er ekki til fyrir slensku.

    Tv jaarsvi sem mist geta veri sjlfstur verkbn-

    aur ea jna sem stottir bak vi tjldin eru sam-

    antekt texta og mlmyndun. Me samantekt er leitast

    vi a draga meginatrii langs texta saman stuttu mli

    og er meal annars boi upp slkt Microso Word.

    ar er einkum stust vi tlfrilega afer til a greina

    mikilvg or textanum (. e. or sem eru hlutfalls-

    lega mun algengari textanum en almennri mlnotk-

    un) og kvara san hvaa setningar hafa a geymahst

    hlutfall essara mikilvgu ora. r setningar eru s-

    an dregnar t r textanum og settar saman til a mynda

    samantektina. essari afer sem er mjg algeng bn-

    ai almennum markai felst samantektin eingngu

    v a draga setningar r textanum, og textinn er v

    skorinn niur hlutmengi upphaegra setninga. nn-

    ur afer, sem talsvert hefur veri rannsku, er s a

    mynda njar setningar sem ekki koma fyrir frumtext-

    anum. etta krefst dpri skilnings textanum og er v

    mun vikvmara. estum tilfellum er textamyndun

    ekki sjlfstur bnaur heldur er hn felld inn via-

    meiri hugbna, svo sem upplsingaker heilbrigis-

    jnustu ar sem upplsingum um sjklinga er safna,

    r geymdar og san unni r eim. Skrsluger er a-

    eins eitt af mrgum svium ar sem samantekt ntist.

    Ekkert af eim bnai sem rtt er um essum

    undirkaa er til fyrir slensku.

    4.4 NMSLEIIRMltkni ermjg verfaglegt svi ar sem saman kemur

    srekking mlfringa, tlvunarfringa, strfr-

    inga, heimspekinga, slfringa, taugafringa og eiri.

    Hn hefur v ekki last traustan sess slensku h-

    sklaumhver. Um sustu aldamt var ekki boi upp

    neinar nmsleiir ea einstk nmskei mltkni ea

    tlvumlvsindum neinum slenskum hskla og engar

    rannsknir voru gangi essum svium.

    Hausti 2002 tk Hskli slands upp verfaglegt

    meistaranm mltkni. Um er a ra tveggja ra

    nm (120 ECTS einingar) ar sem forkrfur eru B.A.-

    prf tungumlum ea mlvsindum ea B.Sc.-prf

    tlvunarfri (ea rafmagns- ea hugbnaarverk-

    fri). ri 2007 var nmi endurskipulagt sam-

    vinnumilli slenskudeildarHskla slands og tlvunar-

    frideildar Hsklans Reykjavk. mean Norrni

    mltknisklinn (Nordic Graduate School of Langua-

    ge Technology NGSLT) var og ht, runum 2004-

    2009, gtu nemendur einnig teki einstk nmskei

    vi skla annars staar Norurlndunum og Eystra-

    saltslndunum.

    Vegna skorts f ogmannaa hefur ekki veri mgulegt

    a taka nja nemendur inn meistaranmi san 2009.

    Hins vegar er reglulega boi upp einstk nmskei

    24

  • mltkni, mlvinnslu og gagnamlfri, bi vi H-

    skla slands og Hsklann Reykjavk.

    4.5 INNLEND VERKEFNI OGVIFANGSEFNIAeins um 330.000 manns tala slensku og a er ekki

    ng til ess a standa undir kostnaarsamri run nrra

    afura. a kostar jafnmiki a sma mltknibn-

    a fyrir slensku og fyrir tunguml sem hundru millj-

    na manna tala. Vegna essa starfa nstum engin ml-

    tknifyrirtki almennum markai slandi. Fri-

    rik Sklason ehf. hefur ra og selt stafrninn Pka

    en vinnur ekki a neinum njum framleisluvrum

    svii mltkni. sasta ratug unnu Sminn og hug-

    bnaafyrirtki Hex me Hskla slands a smi

    bi stakoragreinis og talgervils fyrir slensku. Hvor-

    ugt essara fyrirtkja vinnur lengur aml- ea taltkni.

    Clara er nlegt fyrirtki sem jnustar nnur fyrir-

    tki sem vilja vita hva flki nnst um framleisluvrur

    eirra og jnustu. Ker Clru notar merkingargrein-

    ingu og srstaka afer vi framsetningu gagna til a

    greina vihorf flks netinu. Verkfri fyrirtkisins til

    greiningar vefsum slensku kallast Vaktarinn [52].

    fyrsta starfsri var ame 1200 notendur ef me eru

    taldir eir sem notuu jnustuna keypis til reynslu.

    Clara er eina fyrirtki slandi sem er a ra ml-

    tknibna semmarkasvru.

    ri 2000 setti slenska rki af sta srstakt mltkni-

    tak me a fyrir augum a styja stofnanir og fyrir-

    tki v a ba til grundvallarggn fyrir slenska ml-

    tkni. etta frumkvi leiddi til nokkurra verkefna sem

    hafa ha mjg mikil hrif mltkni slandi. Helstu

    afurir mltknitaksins eru eirfarandi [2]:

    Gagnagrunnur me beygingarlsingu slensks n-tmamls

    Mlfrilega mrku mlheild me 25 milljnumora

    jlfunarsafn fyrir gagnastra mlfrilega mrk-un

    Talgervill

    Stakoragreinir

    Betrumbttur stafrnir

    egar mltknitakinu lauk ri 2004 kvu fri-

    menn fr remur stofnunum (Hskla slands, Hskl-

    anum Reykjavk og Stofnun rna Magnssonar s-

    lenskum frum) sem hfu teki tt estum verk-

    efnummltknitaksins a sameinast um stofnunMl-

    tkniseturs me a a markmii a vinna fram a

    verkefnum sem egar voru komin af sta. Aalhlutverk

    Mltkniseturs er a:

    vera upplsingaveita um slenska mltkni og rekavefsetur v skyni (http://maltaeknisetur.is);

    stula a samstar hskla, stofnana og fyrirtkjaummltkniverkefni;

    skipuleggja og samhfa hsklakennslu svii ml-tkni;

    taka tt norrnu, evrpskuog aljlegu samstar svii mltkni;

    standa fyrir og eiga aild a rannsknar- og runar-verkefnum svii mltkni;

    halda utan um miss konar hrefni og afurir sviimltkni;

    halda mltknirstefnur me tttku fri-manna, fyrirtkja og almennings;

    beita sr fyrir eingu slenskrar mltkni llumsvium.

    undanfrnum rum hafa frimenn Mltkniseturs

    tt frumkvi a nokkrumnjum verkefnum semhafa

    veri styrkt a hluta til af Rannsknasji og Tkni-

    runarsji. Mikilvgasta afur essara verkefna er

    opni hugbnaurinn IceNLP (mlfrilegi markarinn

    IceTagger, hlutattarinn IceParser, og lemmunarfor-

    riti Lemmald) [53], sem hgt er a nota vefnum

    25

  • (http://nlp.cs.ru.is). ri 2009 fkkMltknisetur h-

    an riggja ra ndvegisstyrk fr Ranns til verkefnisins

    Hagkvm mltkni utan ensku slenska tilraunin.

    Innan essa verkefnis var unni fram a v a byggja

    upp grunnstoir slenskrar mltkni.

    Eins og hr hefur komi fram hafa margvsleg verkefni

    leitt til runar missa mltknitla og mlfanga fyrir

    slensku. Hr eir er ge yrlit yr nverandi stu

    slenskrar mltkni.

    4.6 AGENGI AMLTKNITLUM OGMLFNGUM mynd 8 er ge yrlit yr stu slenskrar mltkni

    og mltknibnaar. Einkunnir mltknitla og ml-

    fanga eru byggar mati helstu srfringa sviinu

    sem gfu einkunnir skalanum fr 0 (mjg lgt) til 6

    (mjg htt) t fr sj vimium.

    Meginniurstur fyrir slensku eru eirfarandi:

    slenska stendur okkalega hva varar einfldustugrunnforsendur mltkninnar bnai og mlfng-

    um, svo sem textagreiningu og mlheildum.

    Einnig eru til einstku ggn og bnaur me tak-markaa virkni svium eins og talgervingu, tal-

    kennslum, vlingum, talmlsheildum, hlist-

    ummlheildum og oraggnum.

    Hraur mltknibnaur og mlfng, svo semtil textatlkunar og mlmyndunar, er ekki til.

    Um sustu aldamt var slenskmltkni varla til. etta

    breyttist eir 1999, egar srstakur starfshpur skilai

    skrslu ummltkni tilmenntamlarherra [3]. ess-

    ari skrslu voru gerar tillgur um msar agerir til

    a koma slenskri mltkni laggirnar. Starfshpurinn

    tlai a a myndi kosta u.. b. einn milljar krna

    (sem jafngilti um 10milljnum evra) a gera slenska

    mltkni sjlfbra. egar v marki vri n tti mark-

    aurinn a geta teki vi ar e hann hefi agang a

    opnum mlfngum sem hefi veri komi upp veg-

    um mltknitlunar rkisstjrnarinnar og yru aent

    jafnrttisgrundvelli til allra sem hygust nta au

    markasvrum.

    a verur a benda a heildarrmagni sem veitt var

    tilmltknitlunarinnar fr 20002004 var aeins um

    1/8 af eirri upph sem urnefndur starfshpur taldi

    a yri til [2]. a arf v ekki a koma vart a s-

    lenskmltkni er enn bernskuskeii. 330.000mlnot-

    endur eru ekki ngilegur ldi til a standa undir kostn-

    aarsamri run njum vrum. Um essar mundir

    vinna nnast engin slensk fyrirtki a mltkni vegna

    ess a au sj enga hagnaarvon henni. v er kaf-

    lega mikilvgt a halda fram opinberum stuningi vi

    slenska mltkni enn um sinn.

    4.7 SAMANBURURTUNGUMLAMltknistuningur er mjg mismunandi milli ml-

    samflaga. Til a bera saman stuna milli mla er

    essum kaa sett fram mat sem byggist tveimur

    verkbnaarsvium (vlingum og talvinnslu), einni

    ger baklgrar tkni (textagreiningu) og grundvallar-

    mlfngum sem arf til smi mltknibnaar. Ml-

    unum var raa mm bila kvara.

    1. Afburagur stuningur

    2. Gur stuningur

    3. Smilegur stuningur

    4. Brotakenndur stuningur

    5. Ltill sem enginn stuningur

    Mltknistuningur var metinn t fr eirfarandi vi-

    miunum:

    Talvinnsla: Gi fyrirliggjandi talkennslatkni, gi

    fyrirliggjandi talgervingartkni, yr