OCR programinė įranga konvertuoja dokumento vaizdą į elektroninį tekstą.
JAV pašto tarnyba naudoja optinio simbolių atpažinimo (OCR) technologiją, kad nuskaitytų pašto siuntų adresus. Tačiau, kad el. laiškus galėtų skaityti OCR laiškų rūšiavimo priemonė, adresai ir šriftai turi būti suformatuoti tam tikru būdu. OCR programinė įranga yra naudinga konvertuojant nuskaitytus įvestų arba ranka rašytų dokumentų vaizdus į elektroninį tekstą, kuriame galima ieškoti, tačiau ji turi trūkumų, ribojančių jos pritaikymą.
Riboti dokumentai
OCR geriausiai veikia su geros kokybės spausdintais dokumentais. OCR programinė įranga negali lengvai perskaityti ranka rašytų dokumentų. Taip pat spausdinti šriftai, panašūs į rašyseną, taip pat ne lotyniški šriftai, OCR proceso metu sukelia daug klaidų. Jei dokumentas prastas kontrastas, susiraukšlėjęs ar nešvarus arba tekstas ir fonas yra panašūs tamsoje, OCR gali veikti netinkamai. OCR kyla sunkumų su dokumentais, kuriuose yra ir vaizdų, ir teksto. Skaičiuoklėse taip pat bus daugiau klaidų.
Dienos vaizdo įrašas
Tikslumas
Jokia OCR programinė įranga nėra 100 procentų tiksli. Klaidų skaičius priklauso nuo dokumento kokybės ir tipo, įskaitant naudojamą šriftą. OCR metu pasitaikančios klaidos apima neteisingą raidžių skaitymą, neįskaitomų raidžių praleidimą arba teksto iš gretimų stulpelių ar vaizdų antraščių maišymą. Jei reikalingas didelis tikslumas – kaip konvertuojant skaitmenines knygas į elektroninį formatą – reikės išvalyti elektroninį tekstą.
Aplinkos
OCR sunku atskirti simbolius, pvz., skaičių nulį ir didžiąją „O“. Norėdami tai išspręsti, galite naudoti specialų OCR šriftą, pvz., įrašyti nulį. Tačiau tai tinka tik dokumentams, sukurtiems naudojant OCR, pvz., klausimynus. Kurdami klausimynus, kurie bus rašomi ranka, tyrėjai taip pat naudoja langelius kiekvienai raidei.
Papildomas darbas
Net jei originalaus dokumento nuskaitytas vaizdas yra aukštos kokybės, reikia atlikti papildomus veiksmus, kad būtų išvalytas OCR tekstas. OCR sukurtų klaidų taisymas yra labai daug darbo reikalaujantis. Asmuo turi rankiniu būdu palyginti originalų dokumentą ir elektroninį tekstą. Žmonės taip pat daro klaidų vesdami tekstą iš dokumento, tačiau kartais OCR veiksmą pavyksta praleisti greičiau.