kézzel írt szöveg normalizálása

Post on 24-Feb-2016

41 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Kézzel írt szöveg normalizálása. Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08. A karakter felismerés két fő módja. Online-felismerés:. kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség - PowerPoint PPT Presentation

TRANSCRIPT

KÉZZEL ÍRT SZÖVEG

NORMALIZÁLÁSAKészítette:

Nagy LeventeKonzulens:

Dr. Vámossy Zoltán egyetemi docens

2012.01.08.

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A karakter felismerés két fő módja

Offline-felismerés:

Online-felismerés:

2

• kisebb erőforrás igény• processzor idő• memória

• több adat az inputról• sebesség• sorrendiség• toll nyomásának erőssége

• valós időben kell feldolgozni

• csak a szöveg képe áll rendelkezésre• több idő áll rendelkezésre a feldolgozáshoz

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A kézzel írott szöveg típusaiIzolált karakterek:

Nyomtatott írás:

Folyóírás:

3

http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A felismerési technológiák fejlődése:

http://www.parascript.com/company2/tech_overview.cfm

4

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Alkalmazási területek

5

Input képek

6

http://www.iam.unibe.ch/fki/databases/iam-handwriting-database

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Az input képek tulajdonságai

7

• angol nyelv• folyóírás• 1539 beolvasott oldal• 657 különböző ember által• több féle különböző tollal• 15 különböző téma• 115 320 szó, és „megoldásaik”Felépítése:• Sentence Database felirat és az űrlap sorszáma• a leírandó szöveg nyomtatva• a kézzel írt szöveg helye• az aláírás helye

Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva.

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A felismerés lépései

8

• a dokumentum binarizálása• a dokumentum elforgatása• a kézzel írt rész behatárolása• a sorok kinyerése• a sorok normalizálása• a jellemzők kinyerése• a jellemzők feldolgozása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Binarizálás

9

Otsu Isodata

Eredeti• a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Otsu binarizálás

10

X: intenzitás mértéke

Y: előfordulások darabszáma

- hisztogam alapú binarizálás

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A dokumentum elforgatása

11

• például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót)

• az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak

[1]

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A dokumentum elforgatása

12

Fourier transzformációval:• Fourier transzformáció• Gamma korrekció és kontraszt növelés• Binarizálás magas küszöbbel• A középső és a legalsó pont x koordinátabeli különbségének meghatározása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

13

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

14

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

15

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

16

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

17

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A kézzel írt rész behatárolása

18

Megvizsgált módszerek:• Hough transzformáció (vonalkeresés)• Vízszintes projekció• Kontúrkeresés majd behatároló téglalap számítás

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A kézzel írt rész behatárolása

19

Hough transzformációval:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

20

Vízszintes projekcióval: Fekete-fehér váltások száma:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

21

Szürkeskálás kép projekciója: Binarizált kép projekciója:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

22

Binarizált kép projekciója: Simított:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Vonalak megtalálása kontúrkereséssel

23

A befoglaló téglalapok meghatározása:

Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes.

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Vonalak megtalálása kontúrkereséssel

24

Az aláírás rálóg a vonalra:

Az utolsó sor rá van írva a vonalra:

• Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor• Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok kinyerése

25

• szintén vízszintes hisztogram

• a völgyeknél lesz az elválasztó vonal

• átlógó vonások problémája

[2]

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok kinyerése

26

A simított vizszintes projekción meghatározott csúcsok által:

A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok.

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok kinyerése

27

Kontúrkeresés és befoglaló téglalapok:

28

Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján

A sorok kinyerése

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

29

A sorok kinyeréseEgybelógó sorok problémája:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok elforgatása

30

• oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa)• ezen helyek felhasználása a lineáris regresszióban• megkapjuk az írás alapvonalát• ennek ferdesége alapján forgatjuk el a sort

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

31

A sorok elforgatása

Egyszerű lineáris regresszió Kendall-Theil

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Az írás dőltségének megszüntetése

32

• itt függőleges hisztogramot készítünk a sorokról• fokonként nyíró transzformációval forgatunk• ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok

[3]

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

33

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

34

Globális dőlésszög meghatározással:

Az írás dőltségének megszüntetése

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Sorok régióinak meghatározása és normalizálása

35

• ki kell számolni a horizontális projekció deriváltját• venni kell az értékek közül a legnagyobb 20%-ba tartozókat• ezeknek a súlypontját ki kell számolni• az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél

[4]

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

36

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A betűk szélességének normalizálása

37

• az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes)

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

38

A betűk szélességének normalizálása

• a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása• ez a darabszám jó becslést ad arra mennyi betű lehet a sorban• ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

39

A kép intenzitásértékeinek normalizálása

• A kép intenzitásértékeinek széthúzása 0-255 tartományba:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A jellemvektor

40

• offline-felismerés esetén 9 jellemző• a számtani közepe a pixelek szürkeárnyalatos intenzitásainak,• a pixelek súlypontja,• a pixelek másodrendű súlypontja,• a legfelső és legalsó pixelek helye,• ezen helyek változásának mértéke a környező ablakokhoz képest,• az előtér és háttér váltások száma a legfelső és legalsó pixelek között,• az előtér pixelek eloszlása a legfelső és legalsó pixelek között.

• online-felismerés esetén 25 jellemző• a fenti jellemzők mellett még pl.:

• a toll nyomásának mértéke• a tollvonás sebessége• az előző és következő időkeretben lévő pontokkal bezárt szög• az előző és következő időkeretben lévő pontok közti távolság• stb.

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A jellemvektorok időkeretenként

41

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Kitekintés

42

A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően:• Rejtett Markov Modellek (Hidden Markov Models - HMMs)• Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs)

• A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés• Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is

A jellemvektorok felhasználása:

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Irodalomjegyzék

43

[1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp. 813-824[2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp. 1212-1225[3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp. 183-190[4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Kérdések

44

Köszönöm a figyelmet

top related