Nevýhody OCR

...

Software OCR převádí obrázek dokumentu na elektronický text.

Americká poštovní služba používá technologii optického rozpoznávání znaků (OCR) ke čtení adres na zásilkách. Aby však pošta byla čitelná třídičem pošty OCR, musí být adresy a fonty naformátovány určitým způsobem. Software OCR je užitečný pro převod naskenovaných obrázků psaných nebo ručně psaných dokumentů na prohledávatelný elektronický text, má však nevýhody, které omezují jeho použití.

Omezené dokumenty

OCR funguje nejlépe s kvalitními psanými dokumenty. Ručně psané dokumenty nelze snadno číst pomocí softwaru OCR. Podobně typická písma, která připomínají rukopis – stejně jako písma jiná než latinka – vytvářejí během procesu OCR mnoho chyb. Pokud má dokument slabý kontrast, je pomačkaný nebo špinavý nebo je-li text a pozadí podobné ve tmě, OCR nemusí fungovat dobře. OCR má potíže s dokumenty, které obsahují obrázky i text. Tabulky také způsobí více chyb.

Video dne

Přesnost

Žádný OCR software není 100% přesný. Počet chyb závisí na kvalitě a typu dokumentu, včetně použitého písma. Mezi chyby, ke kterým dochází během OCR, patří chybné čtení písmen, přeskakování písmen, která jsou nečitelná, nebo smíchání textu ze sousedních sloupců nebo popisků obrázků. Je-li vyžadována vysoká přesnost – jako je tomu u převodu digitálních knih do elektronického formátu – pak bude potřeba provést vyčištění elektronického textu.

Řešení

OCR má potíže s rozlišováním mezi znaky, jako je číslo nula a velké „O“. Chcete-li tento problém obejít, lze použít speciální písmo OCR, jako je vypsání nuly. To však funguje pouze u dokumentů vytvořených s ohledem na OCR, jako jsou dotazníky. Při tvorbě dotazníků, které budou ručně psané, využívají badatelé také rámečky pro každý dopis.

Další práce

I když je naskenovaný obraz originálního dokumentu vysoce kvalitní, je nutné provést další kroky k vyčištění textu OCR. Oprava chyb vytvořených OCR je velmi pracná. Osoba musí ručně porovnat původní dokument a elektronický text. Lidé také dělají chyby při psaní textu z dokumentu, ale někdy je rychlejší přeskočit krok OCR.