OCR softver pretvara sliku dokumenta u elektronički tekst.
Američka poštanska služba koristi tehnologiju optičkog prepoznavanja znakova (OCR) za čitanje adresa na komadima pošte. Međutim, da bi poštu mogao čitati OCR sorter pošte, adrese i fontovi moraju biti oblikovani na određeni način. OCR softver koristan je za pretvaranje skeniranih slika otkucanih ili rukom pisanih dokumenata u elektronički tekst koji se može pretraživati, ali ima nedostatke koji ograničavaju njegovu primjenu.
Ograničeni dokumenti
OCR najbolje funkcionira s kvalitetnim tipkanim dokumentima. OCR softver ne može lako pročitati rukopisne dokumente. Isto tako, upisani fontovi koji podsjećaju na rukopis -- kao i nelatinski fontovi -- stvaraju mnoge pogreške tijekom OCR procesa. Ako dokument ima loš kontrast, izgužvan je ili prljav ili su tekst i pozadina slični u tami, onda OCR možda neće raditi dobro. OCR ima poteškoća s dokumentima koji imaju i slike i tekst. Proračunske tablice također će proizvesti više pogrešaka.
Video dana
Točnost
Nijedan OCR softver nije 100 posto točan. Broj pogrešaka ovisi o kvaliteti i vrsti dokumenta, uključujući korišteni font. Pogreške koje se događaju tijekom OCR-a uključuju pogrešno čitanje slova, preskakanje slova koja nisu čitljiva ili miješanje teksta iz susjednih stupaca ili natpisa slika. Ako je potrebna visoka točnost -- kao kod pretvaranja digitalnih knjiga u elektronički format -- tada će biti potrebno čišćenje elektroničkog teksta.
Work-Arounds
OCR ima poteškoća s razlikovanjem znakova, kao što je broj nula i veliko "O". Da biste to zaobišli, može se koristiti poseban OCR font, kao što je ispisivanje nule. Međutim, to funkcionira samo za dokumente stvorene s OCR-om na umu, kao što su upitnici. Prilikom izrade upitnika koji će biti pisani rukom, istraživači također koriste okvire za svako slovo.
Dodatni posao
Čak i ako je skenirana slika izvornog dokumenta visoke kvalitete, moraju se poduzeti dodatni koraci za čišćenje OCR teksta. Ispravljanje pogrešaka koje stvara OCR vrlo je naporno. Osoba mora ručno usporediti izvorni dokument i elektronički tekst. Ljudi također griješe kada upisuju tekst iz dokumenta, ali ponekad je brže preskočiti OCR korak.