kisvilágunk, a nyelv
TRANSCRIPT
Varjú Zoltán, Precognox
2015.11.17.
"Every time I fire a linguist, the
performance of the speech recognizer
goes up"(Frederick Jelinek)
Zoli nagyon örül, mert Nóri elvitte végre krumplilángost enni. A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli, hogy Nórinak is ízlett. Zoli és Nóri legközelebb nem krumplilángost fog enni, hanem elmennek megnézni az új Avengersfilmet.
zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film
zoli nagyon örül
nagyon örül mert
örül mert nóri
stb.
zoli - nagyon
zoli - örül
nagyon - örül
nagyon - mert
örül - mert
mert - nóri
stb.
SZTAKI Wikipedia dump egy szelete
463409 szó, 46096 egyedi szótári elem
Csak az 1500 leggyakoribb elemet tartalmazó trigram
1500 csomópont
87749 él
Magyar WordNet
42359 csomópont
38335 él
Átlagos utak hossza: 2.35
Átmérő: 13
Agykapocs
8049 csomópont
13635 él
Átlagos utak hossza: 4.36
Átmérő: 353
Mihalcea – Tarau: TextRank: Bringing OrderInto Texts
PageRank alapján rangsorolja a csomópontokat
Felügyelet nélküli módszer
Precision: 31.2%, Recall: 43.1%
Figyelembe veszi a nyelvi struktúrát (pl. A-N nagyobb súlyt kap mint N-A)
Fokszám alapján rangsoroljuk a csomópontokat
Kulcsszókinyerés esetén alacsony kb. 10% precision, elfogadható, 35% recall kulcsszókinyerés esetén angol és magyar korpuszokon tesztelve
Szövegkivonatolás esetén 35% precision, 29% recall
Az előre adott kulcsszavakon túl lehetnek más, releváns kulcsszavak?
Online kérdőívvel értékeltük ki mennyire relevánsak a PrecoRank kulcsszavai magyar szövegek esetében
A PrecoRank által adott kulcsszavak és kulcskifejezések 7.6% inkább releváns, 46.4% releváns, 32.4% valamennyire releváns, 13.2% inkább irreleváns, 0.4% teljesen irreleváns