Slabosti OCR

click fraud protection
...

Programska oprema OCR pretvori sliko dokumenta v elektronsko besedilo.

Ameriška poštna služba uporablja tehnologijo optičnega prepoznavanja znakov (OCR) za branje naslovov na kosih pošte. Da bi pošto lahko prebral razvrščevalnik pošte OCR, je treba naslove in pisave oblikovati na določen način. Programska oprema OCR je uporabna za pretvorbo skeniranih slik vtipkanih ali ročno napisanih dokumentov v elektronsko besedilo, ki ga je mogoče iskati, vendar ima pomanjkljivosti, ki omejujejo uporabo.

Omejeni dokumenti

OCR najbolje deluje s kakovostnimi vtipkanimi dokumenti. Programska oprema OCR ne more zlahka brati ročno napisanih dokumentov. Prav tako vtipkane pisave, ki spominjajo na rokopis - kot tudi nelatinske pisave - ustvarjajo številne napake med postopkom OCR. Če ima dokument slab kontrast, je zmečkan ali umazan ali sta si besedilo in ozadje v temi podobna, potem OCR morda ne bo deloval dobro. OCR ima težave z dokumenti, ki imajo slike in besedilo. Preglednice bodo povzročile tudi več napak.

Video dneva

Natančnost

Nobena programska oprema OCR ni 100-odstotno natančna. Število napak je odvisno od kakovosti in vrste dokumenta, vključno z uporabljeno pisavo. Napake, ki se pojavijo med OCR, vključujejo napačno branje črk, preskakovanje črk, ki niso berljive, ali mešanje besedila iz sosednjih stolpcev ali napisov slik. Če je potrebna visoka natančnost – kot pri pretvorbi digitalnih knjig v elektronsko obliko –, bo potrebno čiščenje elektronskega besedila.

Delovni naokoli

OCR ima težave pri razlikovanju med znaki, kot sta številka nič in velika "O". Če želite to rešiti, lahko uporabite posebno pisavo OCR, na primer izpis nič. Vendar to deluje samo za dokumente, ustvarjene z mislijo na OCR, kot so vprašalniki. Pri izdelavi vprašalnikov, ki bodo ročno napisani, raziskovalci uporabijo tudi polja za vsako črko.

Dodatno delo

Tudi če je skenirana slika izvirnega dokumenta visokokakovostna, je treba izvesti dodatne korake za čiščenje besedila OCR. Popravljanje napak, ki jih ustvari OCR, je zelo delovno intenzivno. Oseba mora ročno primerjati izvirni dokument in elektronsko besedilo. Ljudje delajo tudi napake pri tipkanju besedila iz dokumenta, vendar je včasih hitreje preskočiti korak OCR.