OCR-i puudused

...

OCR-tarkvara teisendab dokumendi kujutise elektrooniliseks tekstiks.

USA postiteenistus kasutab kirjades olevate aadresside lugemiseks optilise märgituvastuse (OCR) tehnoloogiat. Kuid selleks, et kirju oleks OCR-i sorteerijaga loetav, peavad aadressid ja fondid olema teatud viisil vormindatud. OCR-tarkvara on kasulik trükitud või käsitsi kirjutatud dokumentide skannitud kujutiste teisendamiseks otsitavaks elektrooniliseks tekstiks, kuid sellel on puudusi, mis piiravad selle rakendusi.

Piiratud dokumendid

OCR töötab kõige paremini hea kvaliteediga trükitud dokumentidega. Käsitsi kirjutatud dokumente ei saa OCR-tarkvara hõlpsalt lugeda. Samamoodi tekitavad käsitsikirjale sarnased trükitud fondid (nagu ka mitteladinakeelsed fondid) OCR-i käigus palju vigu. Kui dokumendi kontrastsus on halb, see on kortsus või määrdunud või kui tekst ja taust on pimedas sarnased, ei pruugi OCR hästi toimida. OCR-il on raskusi dokumentidega, mis sisaldavad nii pilte kui ka teksti. Arvutustabelid toodavad ka rohkem vigu.

Päeva video

Täpsus

Ükski OCR-tarkvara pole 100 protsenti täpne. Vigade arv sõltub dokumendi kvaliteedist ja tüübist, sealhulgas kasutatud fondist. OCR-i käigus ilmnevad vead hõlmavad tähtede valesti lugemist, loetamatute tähtede vahelejätmist või külgnevate veergude või pildiallkirjade teksti segamist. Kui on vaja suurt täpsust – nagu digitaalraamatute teisendamisel elektrooniliseks vorminguks –, on vaja elektrooniline tekst puhastada.

Ümbertöötamine

OCR-il on raskusi märkide, näiteks numbri nulli ja suurtähte „O” eristamisel. Selle lahendamiseks võib kasutada spetsiaalset OCR-fonti, näiteks kirjutada välja null. See toimib aga ainult OCR-i silmas pidades loodud dokumentide (nt küsimustikud) puhul. Käsitsi kirjutatavate küsimustike loomisel kasutavad teadlased iga tähe jaoks ka lahtreid.

Lisatöö

Isegi kui originaaldokumendi skannitud kujutis on kvaliteetne, tuleb OCR-teksti puhastamiseks teha täiendavaid samme. OCR-i tekitatud vigade parandamine on väga töömahukas. Inimene peab originaaldokumenti ja elektroonilist teksti käsitsi võrdlema. Inimesed teevad vigu ka dokumendist teksti tippides, kuid mõnikord on OCR-i sammu kiirem vahele jätta.