ocr
Post on 30-Dec-2015
31 Views
Preview:
DESCRIPTION
TRANSCRIPT
OCROCR(Optical Character (Optical Character
Recognition)Recognition)
Vypracovali: P. Vymetálek, J. ViktoraKartografická polygrafie a reprografie
akademického roku 2007/2008
Co nás čekáCo nás čeká
úvodúvod historiehistorie metody metody
ocrocr jak fungujejak funguje
ÚvodÚvod
OCR - Optical Character RecognitionOCR - Optical Character Recognition==
optické rozpoznávání znaků optické rozpoznávání znaků
umožňuje digitalizaci tištěných textůumožňuje digitalizaci tištěných textů úspěšnost převodu je závislá na kvalitě úspěšnost převodu je závislá na kvalitě
předlohypředlohy je použitelné pro všechny tištěné výstupy je použitelné pro všechny tištěné výstupy
z laserových, inkoustových, z laserových, inkoustových, termosublimačních, jehličkových termosublimačních, jehličkových tiskáren a předlohy vytištěné knihtiskem tiskáren a předlohy vytištěné knihtiskem
HistorieHistorie
1950 – začátek vývoje ocr1950 – začátek vývoje ocr 1954 – první OCR systém – Reader‘s 1954 – první OCR systém – Reader‘s
DigestDigest
První generace OCRPrvní generace OCR:: 1960 – 19651960 – 1965 charakterizuje se využitím pro charakterizuje se využitím pro
jednoduché zpracování znakůjednoduché zpracování znaků znaky byly speciálně vyvinuty pro tyto znaky byly speciálně vyvinuty pro tyto
systémysystémy
HistorieHistorie
znaky vypadali značně uměleznaky vypadali značně uměle postupně systémy s více fontypostupně systémy s více fonty systém porovnával znaky s knihovnou znakůsystém porovnával znaky s knihovnou znaků
E13BE13B
HistorieHistorie
Druhá generace OCRDruhá generace OCR:: pol. 60. let až 70. létapol. 60. let až 70. léta rozpoznání běžně psaných strojových rozpoznání běžně psaných strojových
textůtextů „„rozpoznání“ ručně psaných znakůrozpoznání“ ručně psaných znaků první systémy – IBM1287, Toshiba první systémy – IBM1287, Toshiba
(poštovní třídič), Hitashi(poštovní třídič), Hitashi americký standard character set OCR-Aamerický standard character set OCR-A evropský standard character set OCR-Bevropský standard character set OCR-B
HistorieHistorie
OCR – AOCR – A OCR - BOCR - B
HistorieHistorie
Třetí generace OCRTřetí generace OCR:: od poloviny 70. letod poloviny 70. let rozpoznávají dokumenty nižší kvalityrozpoznávají dokumenty nižší kvality
OCR dneškaOCR dneška:: masové nasazení a velké rozšíření masové nasazení a velké rozšíření
různých systémů po cele Zemirůzných systémů po cele Zemi jmenujme: Fine Reader, …jmenujme: Fine Reader, …
Metody OCRMetody OCR
principem modelu rozpoznávání je principem modelu rozpoznávání je naučit systém základním případůmnaučit systém základním případům
základní typy: speciální symboly, základní typy: speciální symboly, otazník, čárka,…otazník, čárka,…
učení systému na demo datechučení systému na demo datech systém si vyrobí prototypysystém si vyrobí prototypy při rozpoznávání se porovnávají při rozpoznávání se porovnávají
znaky s prototypyznaky s prototypy
Jak fungujeJak funguje
nejprve skenování podkladůnejprve skenování podkladů
Jak fungujeJak funguje
předzpracování, binární obrazpředzpracování, binární obraz lokalizace řádků, znakůlokalizace řádků, znaků
Jak fungujeJak funguje
extrahování rysů – získání základních extrahování rysů – získání základních charakteristik každého znakucharakteristik každého znaku
Jak fungujeJak funguje
klasifikace znaků – rozpoznáváníklasifikace znaků – rozpoznávání porovnávání vzniklých slov se porovnávání vzniklých slov se
slovníkemslovníkem kontrola pravopisukontrola pravopisu
-extrahování -extrahování rysů-rysů-
ZdrojeZdroje
http://cs.wikipedia.org/wiki-OCRhttp://cs.wikipedia.org/wiki-OCR [online] [online] http://www.quido.cz/Objevy/ocr.htmhttp://www.quido.cz/Objevy/ocr.htm [online] [online] http://medard.soc.cas.cz/digidat/obraz_OCR.hhttp://medard.soc.cas.cz/digidat/obraz_OCR.h
tmtm [online] [online]
http://www.digineff.cz/jaknato/ocr/ocr.htmlhttp://www.digineff.cz/jaknato/ocr/ocr.html [online][online]
V.Suchý,V.Suchý, Rozpoznávání textu v obraze, Brno Rozpoznávání textu v obraze, Brno 20072007
top related