simon eszter: a hun* eszközlánc szószintű feldolgozó eszközei

9

Click here to load reader

Upload: zoltan-varju

Post on 04-Jul-2015

943 views

Category:

Technology


4 download

DESCRIPTION

A decemberi NLP meetup diái

TRANSCRIPT

Page 1: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

A hun* eszkozlanc szoszintu feldolgozo eszkozei

Simon Eszter

MTA Nyelvtudomanyi Intezet

2014. november 27.NLP meetup

Simon Eszter MTA Nyelvtudomanyi Intezet

A hun* eszkozlanc szoszintu feldolgozo eszkozei

Page 2: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

A fejlesztok

BME MOKK (Media Oktato es Kutato Kozpont)

Gyepesi Gyorgy, Halacsy Peter, Kornai Andras, Nemeth Laszlo,Oravecz Csaba, Rebrus Peter, Rung Andras, Simon Eszter,

Szakadat Istvan, Tron Viktor, Vajda Peter,Varga Daniel, Zseder Attila

MTA Nyelvtudomanyi Intezet

Page 3: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

A cel

hiszen a szabad szoftver egyben szabad dokumentaciot is igenyel

hiszen CONJ hiszena ART aszabad ADJ szabadszoftver NOUN szoftveregyben ADV egybenszabad ADJ szabaddokumentaciot NOUN<CAS<ACC>> dokumentaciois ADV isigenyel VERB igenyel

MTA Nyelvtudomanyi Intezet

Page 4: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

huntoken

szabalyalapu tokenizalo es mondatrabonto

magyar es angol nyelvre

98% pontossaggal megallapıtja a helyes mondat- es szohatart

kezeli a leggyakoribb rovidıteseket, szamokat, felsorolasokat,idezeteket, URL-eket, datumokat stb.

http://mokk.bme.hu/resources/huntoken/https://github.com/zseder/huntoken/

MTA Nyelvtudomanyi Intezet

Page 5: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

hunmorph

szabalyalapu morfologiai elemzo es szotovelo rendszer

MTA Nyelvtudomanyi Intezet

Page 6: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

hunmorph

a fejlesztes egy leagazasanak termeke a hunspellhelyesıras-ellenorzo

KR-kodot bocsat ki

guessing modban is futtathato

az osszetetelek blokkolhatok

http://mokk.bme.hu/resources/hunmorph/

MTA Nyelvtudomanyi Intezet

Page 7: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

hunpos

felugyelt gepi tanulason alapulo szofaji cımkezo

TnT-reimplementacio

angol: 96,58%; magyar: 98,24% accuracy

python interface (NLTK)

https://code.google.com/p/hunpos

MTA Nyelvtudomanyi Intezet

Page 8: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

Kozos tulajdonsagok

Latin-1 vagy 2 szoveget esznek

Unix, MacOsX, Windows rendszer alatt is hasznalhatok

szabadon felhasznalhatok (LGPL licensz alatt)

http://mokk.bme.hu/resources/huntoken/https://github.com/zseder/huntoken/http://mokk.bme.hu/resources/hunmorph/http://mokk.bme.hu/resources/morphdb-hu/http://hunspell.sourceforge.net/https://code.google.com/p/hunpos/

MTA Nyelvtudomanyi Intezet

Page 9: Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei

Koszonom a figyelmet!

http://mokk.bme.hu/resources/

[email protected]

MTA Nyelvtudomanyi Intezet