ra unalno jezikoslovlje - damir cavar’s homepagedamir.cavar.me/pubs/compling.pdf · prepoznavanje...

23
Ra č unalno jezikoslovlje Damir Ćavar Sveučili šte u Zadru, Odjel za lingvistiku u.o.

Upload: others

Post on 06-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Računalno jezikoslovlje

Damir ĆavarSveučilište u Zadru, Odjel za lingvistiku u.o.

Page 2: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Plan izlaganja

Jezične tehnologije

Govor (speech)

Jezik (language)

Uloga jezikoslovlja

Page 3: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Govor

Prepoznavanje govora (speech recognition)

Sinteza govora (speech synthesis)

Page 4: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Prepoznavanje govora

Tehnološko stanje:

Standard: Prepoznavači govora u svim sustavima: Windows XP/Vista, Mac OS X, Linux

Profesionalni sustavi za telefonske servere, npr. Nuance (kupili SpeechWorks), Microsoft, itd.

Otvoreni i slobodni alati za modeliranje i generiranje prepoznavača (npr. HTK)

Page 5: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Prepoznavanje govora

Tehnologija:

Skriveni Markovljevi modeli

Neuronske mreže

Sustavi:

Operativni sustavi

npr. IBM ViaVoice, Dragon NaturalySpeaking

Page 6: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

U Hrvatskoj

npr. FER:

Laboratorij za sustave i signale

doc. dr.sc. Davor Petrinović

Page 7: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Govor kao sučelje

Skoro svatko čuje i zna govoriti

ukidanje tehnološke barijere

Interfejs u situacijama bez mogućnosti manualne instrukcije ili manipulacije strojevima

Page 8: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

PrimjenaNaredbe

Strojevi

Elektronski uređaji

Automobili i zrakoplovi

Telefonske aplikacije i informacijski sistemi

Diktiranje i prevođenjeStudije i usvajanje stranih jezikaSustavi za invalide

Page 9: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Sinteza govoraSinteze:

Difon modeli, baze sa frazama, skriveni Markovljevi modeli

Primjeri:

OS X, AT&T Natural Voices

Virtualni govornici ili izlagači:

Charamel.de

Page 10: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Jezik

ima središnje mjesto: komunikacija je jezik

za gospodarstvo

za politiku i nacionalnu sigurnost

znanstveni rad

svakodnevni život

Page 11: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

JezikTekst kao:

komunikacijsko sredstvo

arhivirana informacija i znanje

Problemi:

kvantiteta

kvaliteta (informacija vs. znanje)

Page 12: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Jezik i komunikacijaProblemi:

Višejezičnost

Specifične domene jezika i teksta

Količina i kvaliteta

Dinamika jezika

itd.

Page 13: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Klasi!ne teme elektronske obrade

podataka:

mre!na tehnologija, memorija, dostupnost

podataka, ...

Tehnologije i infrastruktura za:

prikazivanje, izlu"ivanje,

memoriranje informacije,

"svjesnost" o tipu podataka sa

informacijama

Tehnologije za:

neovisnost o tipu kodiranja za informaciju i

specifi"nog jezika, identifikaciju znanja

i rendundantnih i neistinitih

informacija

Elektroni"ka

obradba

podataka

poticaj: kvantiteta,

kvaliteta, u"inkovito

pronala!enje,

transparentnost

poticaj: zatrpanost

informacijama, redundancije,

proturje"nost, pouzdanost,

sa!imanje

Elektroni"ka

obradba

informacija

Elektroni"ka

obradba znanja

Page 14: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Jezik i komunikacijaRješenje

Računalno jezikoslovlje:

rječnici, tezaurusi, snimke, ...

modeli jezika na svim razinama

alati za analizu jezika (a i vizualnih i akustičkih informacija)

za SemanticWeb itd.

Page 15: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Računalno jezikoslovlje

Zadatci:

Stvaranje baze jezičnih podataka

rječnike, korpuse, gramatike, itd.

Stvaranje osnovne tehnologije

prepoznavanje jezika, obilježavanje riječi, sintaktička analiza rečenica, semantičko obilježje

Page 16: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Osnove

Standard:

Prepoznavanje jezika, pravopis (Spell-checker), obilježje i morfologija (tagger), gramatika (grammar checker)

Nema u standardnim sustavima:

Prepoznavanje imena (named entity recognition), semantička analiza, klasifikacija teksta, itd.

Page 17: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Hrvatski

Ima:

rječnike, korpuse, donekle alate za strojno prevođenje

Nema:

formalne gramatike za jezičnu tehnologiju, osnovne otvorene i dostupne tehnologije

Page 18: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Hrvatski

Što radimo (u suradnji s Institutom za hrvatski jezik i jezikoslovlje):

korpus (jedno- i višejezični)

rječnike (jedno- i višejezične)

alate

gdje: Hrvatska jezična riznica

Page 19: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Primjeri

Prevođenje dokumenata

Pretraživanje i ekstrakcija podataka

Meta-obilježje

Klasifikacija dokumenata

Page 20: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Pilot

WebServiceServer

Java WebService

Prva analizaStatistička analiza

lingvističke komponente

Prepoznavanje jezikaObilježje

LematizacijaPrepoznavanje imena

MS Word

.NETC# & Word Automation

VB Makro

SOAP

Tekst

Ključne riječi, tema...

MS Word

.NETC# & Word Automation

VB Makro

Tekst

RDF ...

Batch anotacija

.NETJava

Tekst

RDF ...

Page 21: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

K-Net

Page 22: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Istraživanja

Kvalitativna i kvantitativna analiza jezika:

Usvajanje jezika

Evolucija jezika

Dijalektološke studije

Baze za psihološka i kognitivna istraživanja

Page 23: Ra unalno jezikoslovlje - Damir Cavar’s Homepagedamir.cavar.me/Pubs/CompLing.pdf · Prepoznavanje govora Tehnološko stanje: Standard: Prepoznavači govora u svim sustavima: Windows

Istraživanja

Interdisciplinarno povezano:

Jezik

Računarstvo

Psihologija i kognitivne znanosti