kÖfop-2.1.2-vekop-15-2016-00001 a jó kormányzást...
TRANSCRIPT
KÖFOP-2.1.2-VEKOP-15- 2016-00001 A jó kormányzást megalapozó
közszolgálat-fejlesztés„Okos város – okos közigazgatás technológiák”Az Okos város – okos közigazgatás kutatóműhely zárórendezvénye
Nemzeti Közszolgálati Egyetem
2018. szeptember 27.
Szövegbányászati technológiák a közigazgatásban
Dr. Szűcs Gábor
SZÖVEGBÁNYÁSZATI TECHNOLÓGIÁK A KÖZIGAZGATÁSBAN
Okos város – okos közigazgatás technológiák 2 Dr. Szűcs Gábor BME
• Felmerülő igények• Megoldási lehetőségek• Reprezentáció készítés és szövegelemzés
– Szöveg osztályozás – Információ visszakeresés– Információ kinyerés
• Alkalmazások
FELMERÜLŐ IGÉNYEK
Okos város – okos közigazgatás technológiák 3 Dr. Szűcs Gábor BME
Igények 2 oldala:• közigazgatás:
nemzetközi ajánlás közszolgáltatásokra: „Common List of Basic Public Services”
• állampolgárok / okos város lakóinak igényei: egyszerű ügyintézés, okos közigazgatás
MEGOLDÁSI LEHETŐSÉGEK
Okos város – okos közigazgatás technológiák 4 Dr. Szűcs Gábor BME
Informatikai megoldások
Tartalom kezelés
Szövegbányászat
SZÖVEGBÁNYÁSZAT FOLYAMATA
Okos város – okos közigazgatás technológiák 5 Dr. Szűcs Gábor BME
• Szöveg előkészítés– Szöveg átalakítása adat típussá
• Szöveg reprezentálás / Indexelés– Különböző megközelítések
• Szöveg elemzés– Adatelemzési feladattípusok
SZÖVEGDOKUMENTUMOK REPREZENTÁLÁSÁNAK 3 MEGKÖZELÍTÉSE
Okos város – okos közigazgatás technológiák 6 Dr. Szűcs Gábor BME
• Halmazelméleti modell– Halmazműveleteket használnak
• Algebrai modell– Dokumentumokat algebrai objektumokként (vektor vagy
mátrix) ábrázolják, algebrai műveletekkel hasonlítják őket össze.
– A legelterjedtebb modell: a vektortér modell.
• Valószínűségi (valószínűségelméleti) modell– Dokumentumokat valószínűségi eseményként kezelik.– Hasonlóságot feltételes valószínűségi becslésként
határozzák meg.
STRUKTURÁLIS SZEGMENTÁLÁS
Okos város – okos közigazgatás technológiák 7 Dr. Szűcs Gábor BME
• Szöveg strukturális egységekre pl: – kötet, – rész, – fejezet, – szakasz, – bekezdés, stb. való bontása
• Erősen függ a dokumentum(ok)tól. Így egyedi megoldások kellenek.
MONDATOKRA BONTÁS
Okos város – okos közigazgatás technológiák 8 Dr. Szűcs Gábor BME
• Folytonos szöveg mondatokra való szeparálása.
• Mondathatárokat a mondatzáró írásjelek segítségével lehet meghatározni.
• Vannak kivételek: dátum, sorszám, url, e-mail címek.
• Szabály alapú megoldásokkal javítanak a felismerésen.
TOKENIZÁLÁS
Okos város – okos közigazgatás technológiák 9 Dr. Szűcs Gábor BME
• Token: egy karaktersorozat konkrét dokumentumbeli előfordulása.
• Típus: azonos karaktersorozat tartalmazó tokenek osztálya.
• Típusok összessége: nyers szótár.• Dokumentumot tokenek sorozatára bontjuk,
az output: token folyam.
STOPSZÓ SZŰRÉS
Okos város – okos közigazgatás technológiák 10 Dr. Szűcs Gábor BME
• Stopszó (vagy más néven töltelékszó, tiltott szó): nagyon gyakran előforduló szavak
• Nyers szótárból való elhagyásuk lényegesen csökkenti a tárolás méretét (szótár méret, szó-dokumentum mátrix).
• Kihagyásuk a szöveg elemzés jóságát általában nem rontja.
SZÓTÖVEZÉS
Okos város – okos közigazgatás technológiák 11 Dr. Szűcs Gábor BME
• Szavak átalakítása: egyszerűsített alakra.• Nyelvészetben: a szó lemmájának (normalizált
vagy szótári alak) előállítása a cél. • Informatikában: szavak szótövének előállítása
a cél. (eredmény lehet néha értelmetlen)
REPREZENTÁCIÓ KÉSZÍTÉS ÉS SZÖVEGELEMZÉS
Okos város – okos közigazgatás technológiák 12 Dr. Szűcs Gábor BME
INFORMÁCIÓ VISSZAKERESÉS
Okos város – okos közigazgatás technológiák 13 Dr. Szűcs Gábor BME
INFORMÁCIÓ KINYERÉS
Okos város – okos közigazgatás technológiák 14 Dr. Szűcs Gábor BME
Incidens detektálás online médiában• Forrás: twitter• Incidens típusok: tüzek, földrengések,
balesetek, rablások• Tanuló algoritmus• Incidens detektálás (automatikus értesítés)
SZÖVEG OSZTÁLYOZÁS
Okos város – okos közigazgatás technológiák 15 Dr. Szűcs Gábor BME
spam szűrés (e-mail-ekben)
• adathalmaz gyűjtés• címkézés• szövegelőfeldolgozás• gépi tanulás• új e-mail besorolás
hírek osztályozása• adathalmaz gyűjtés• címkézés• szövegelőfeldolgozás • gépi tanulás• új hír besorolás
BINÁRIS OSZTÁLYOZÁS EREDMÉNYEI
Okos város – okos közigazgatás technológiák 16 Dr. Szűcs Gábor BME
keresztvalidáció ”A”tanuló-állomány
“B” tanuló-állomány
1. részhalmaz 78,2% 90,2%2. részhalmaz 72,4% 89,8%3. részhalmaz 74,9% 90,0%4. részhalmaz 68,6% 90,9%átlag 73,5% 90,2%
SZÖVEGBÁNYÁSZATALKALMAZÁSI TERÜLETEI
Okos város – okos közigazgatás technológiák 17 Dr. Szűcs Gábor BME
• hírfigyelés • ügyfélszolgálati tevékenység, véleményanalízis• e-kormányzatnál automatikus ügyfél irányítás• e-közigazgatási ügyfél intelligens
sémaillesztése• digitális könyvtárakban könyvek keresése• elektronikus dokumentumokban ügyek
keresése
Köszönöm a figyelmet!