luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

Post on 21-Mar-2016

44 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti. Pregled predavanja. Namen luščenja terminologije Statistične metode Metoda z vzorci Dvojezično luščenje Primeri Razprava. Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč) - PowerPoint PPT Presentation

TRANSCRIPT

Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

Pregled predavanja Namen luščenja terminologije

Statistične metode

Metoda z vzorci

Dvojezično luščenje

Primeri

Razprava

Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)

Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu.

Zunanji ponudnik storitev

Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.

Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)

Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu.

Zunanji ponudnik storitev

Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.

Zakaj samodejno luščenje terminologije v svetu elektronskih besedil so termini “fižol v informacijskem pasulju” iskanje podatkov terminološke aplikacije v službi medjezikovnega posredovanja podpora slovarskemu delu osnova za semantično bogate aplikacije

odgovarjanje na vprašanja (QA) strojno prevajanje in tolmačenje (MT) rudarjenje znanja (DM, KE) semantični splet (SW)

“Nepravo” luščenje terminov iskanje podatkov (IR) – indeksiranje dokumentov

namen: poiskati besede, ki naredijo dokument najbolj prepoznaven v

množici in po katerih se najbolj razlikuje od vseh dokumentov v

množici

tf-idf (Term Frequency – Inverse Document Frequncy, Salton & Yang 1973)

w i , j tf i , j log Nn i

“Pravo” luščenje terminov iskanje vseh enot, ki se v specializiranem besedilu nanašajo na točno določeni

pojem, oziroma se njihova raba razlikuje od rabe v nespecializiranih besedilih

obravnava eno- in večbesednih enot

samodejnost (sistem poišče terminološke kandidate brez vnaprej podanih terminoloških slovarjev)

Statistične metode “ključnost” (keyness)(Ahmad 1992, Scott 1998) – primerjava relativne pogostosti med specialnim in

referenčnim korpusom

Primer: SK RK f(gnojenje) 11 27

N 10.000 100.000 rf = 4,07

“terminološkost” (termhood)(Ananiadou 1994, Heid 1999) – termini vsebujejo material, ki ga splošne besede ne (prevzeti termini iz klasičnih jezikov, izlastnoimenski termini, akronimi, izbrana ločila)Primer: ab-, auf-, ent-, anti-, bi-, mega-, mikro-, multi-, radial-, semi-, ad-, ex-, in-, ko-, pro-; -grad, -heit, -nis, -schaft, -tum, -ial, -gramm, -graph, -id, -ik, -tion, -taet, -um, -ator,...

Večbesedni termini: statistika asociacij

2 (Manning & Schütze 1999)

Statistika asociacij II medsebojna informacija (MI) (Church & Hanks 1990)

logaritem razmerij verjetja (LLR) (Dunning 1993)

Luščenje na podlagi oblikoskladenjskih vzorcev večbesedni termini sledijo ustaljenim oblikoskladenjskim vzorcem (P+S, S+Sg,

P+P+S,...)

razvrščanje terminoloških kandidatov glede na ključnost (rf) njihovih sestavnih delov

Primer:

center za krizno upravljanje = (0.149 + 0.06 + 0.66 + 0.15) / 4

slabost: poudarek na samostalniških frazah Bourigault (1992), Justeson&Katz (1995), Daille, Gaussier & Lange (1994), ...

Luščenje dvojezičnega slovarja iz vzporednega korpusa fosilni program Twente (Hiemstra 1998)

temelji na algoritmu Iterative Proportional Fitting Procedure (IPFP),

prevodni model ena-na-ena

za vsako besedo predlaga eno ali več prevodnih ustreznic skupaj s

statistično verjetnostjo

izboljšave: lematizacija, odstranjevanje praznih besed

Primer izluščenega leksikona

sprejeti sprejetje sprememba spremeniti------------------ ------------------ ------------------ ------------------adopted 0.45 adoption 0.94 amendments 0.54 amended 0.38approved 0.33 responsibilit 0.06 changes 0.21 will 0.17adoption 0.11 amendment 0.14 Health 0.16approval 0.10 Act 0.03 amending 0.03 Harmonized 0.02 evidence 0.03 devices 0.02 supplementing 0.03 medical 0.02 short 0.03 responsibilit 0.01 awaiting 0.03

spremljajocx spremljanje spricxevalo sprostiti------------------ ------------------ ------------------ ------------------accompanying 0.47 monitoring 1.00 referral 0.16 adapted 0.27responsibilit 0.16 issue 0.11 equestrian 0.27Institutions 0.16 attached 0.11 events 0.27800 0.07 changed 0.11 there 0.18regulates 0.05 veterinarians 0.11 free 0.01cost 0.03 attestations 0.11work 0.03 appointed 0.11begin 0.02 emergency 0.08

Iskanje prevoda – “ustreznice v žaklju” za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz

leksikona

jedrska elektrarna Černobil

nuclear 1.00 power 0.50plant 0.50

Chernobyl 1.00

Iskanje prevoda – “ustreznice v žaklju” za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz

leksikona

jedrska elektrarna Černobil

nuclear 1.00 power 0.50plant 0.50

Chernobyl 1.00

Nuclear power plant 2.00Power plant 1.00Chernobyl nuclear power plant 3.00

Dvojezični kandidatiSlovensko Angleško Ustreznost

doznih mej dose limits 1.49

nadzorovane jedrske fuzije controlled nuclear fusion 1.89

varstvo pred sevanjem radiation protection 2.00

mednarodnega termonuklearnega poskusnega

International thermonuclear experimental

2.49

poskusnega reaktorja experimental reactor 1.49

študenti in pripravniki Students and apprentices 1.50

izpostavljenost ionizirajočemu sevanju

emitting ionizing radiation 1.99

zdravstvenimi službami approved medical practitioners

0.75

izpostavljenih delavcev exposed workers 1.78

države članice Member states require 1.49

Težave

v slovenščini isti termini večkrat izluščeni v različnih sklonih neuspešno razlikovanje med “splošnimi” in “specifičnimi” termini

(enaka oblika, enaka pogostost!) slabši priklic za slovenščino interdisciplinarnost besedil

Dvojezično luščenje pri projektu Voicetran namen:

izboljšava prevajalnika in razpoznavalnika govora podpora terminografskemu delu na FDV

korpusi: mali vzporedni vojaški korpus (ca. 120.000 besed) malo večji enojezični korpus (NO, SV, RZ; 5,5 M besed)

oblikoskladenjsko označevanje in lematizacija: Erjavec IJS luščenje z oblikoskladenjskimi vzorci:

A N 2N Ng 1...

terminološkost: rf (primerjava s Fido)

Dvojezični leksikonair ### zračen 0.56 letalski 0.29 zrak 0.07 (null) 0.03 protioklepen 0.02 zagotavljanje 0.01 air-base ### polkoven 0.38 letalski 0.25 dodaten 0.23 vtp 0.14 air-conditioning ### klimatski 0.87 naprava 0.13 air-defence ### rkb-obramba 0.55 namenski 0.45 air-raid ### zatuliti 0.50 oznanjati 0.50 air-space ### zračen 0.68 prostor 0.32 airbase ### letališče 0.82 zagotovljen 0.18 airborne ### letalski 0.83 enota 0.17 airbus ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 aircraft ### letalo 0.91 letalstvo 0.05 teritorialec 0.05

airfield ### gradnja 0.50 letališki 0.50 airlift ### zračnotransp 0.50 cougar 0.50 airline ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 airplane ### kobilarna 0.13 lipica 0.13 najem 0.13 počastitev 0.13 letalo 0.13 prerazporedit 0.13 obnova 0.11 kritje 0.11airport ### letališče 1.00 airspace ### zračen 1.00

Iskanje prevodnih ustreznic “ustreznice v žaklju” možno dvojezično luščenje iz nevzporednih (primerljivih) korpusov

dvojezični leksikon

kandidati L1

kandidati L2

dvojezični kandidati

top related