OCR trūkumi

...

OCR programmatūra pārvērš dokumenta attēlu elektroniskā tekstā.

ASV pasta dienests izmanto optiskās rakstzīmju atpazīšanas (OCR) tehnoloģiju, lai nolasītu adreses pasta sūtījumos. Tomēr, lai pastu varētu lasīt OCR pasta šķirotājs, adreses un fonti ir jāformatē noteiktā veidā. OCR programmatūra ir noderīga, lai pārveidotu drukātu vai ar roku rakstītu dokumentu skenētus attēlus meklējamā elektroniskā tekstā, taču tai ir trūkumi, kas ierobežo tās lietojumu.

Ierobežotie dokumenti

OCR vislabāk darbojas ar labas kvalitātes drukātiem dokumentiem. Ar OCR programmatūru nevar viegli nolasīt ar roku rakstītus dokumentus. Tāpat drukāti fonti, kas atgādina rokrakstu, kā arī fonti, kas nav latīņu valodas fonti, rada daudzas kļūdas OCR procesa laikā. Ja dokumentam ir vājš kontrasts, tas ir saburzīts vai netīrs, vai teksts un fons ir līdzīgi tumsā, OCR var nedarboties labi. OCR ir grūtības ar dokumentiem, kuros ir gan attēli, gan teksts. Izklājlapas radīs arī vairāk kļūdu.

Dienas video

Precizitāte

Neviena OCR programmatūra nav 100% precīza. Kļūdu skaits ir atkarīgs no dokumenta kvalitātes un veida, tostarp izmantotā fonta. Kļūdas, kas rodas OCR laikā, ietver nepareizu burtu lasīšanu, nelasāmu burtu izlaišanu vai teksta sajaukšanu no blakus esošajām kolonnām vai attēlu parakstiem. Ja ir nepieciešama augsta precizitāte, piemēram, pārvēršot digitālās grāmatas elektroniskā formātā, tad būs nepieciešama elektroniskā teksta tīrīšana.

Aptuveni

OCR ir grūti atšķirt rakstzīmes, piemēram, skaitli nulle un lielo "O". Lai to novērstu, var izmantot īpašu OCR fontu, piemēram, ierakstot nulli. Tomēr tas darbojas tikai dokumentiem, kas izveidoti, ņemot vērā OCR, piemēram, anketas. Veidojot anketas, kas tiks rakstītas ar roku, pētnieki izmanto arī lodziņus katram burtam.

Papildu darbs

Pat ja oriģinālā dokumenta skenētais attēls ir augstas kvalitātes, ir jāveic papildu darbības, lai notīrītu OCR tekstu. OCR radīto kļūdu labošana ir ļoti darbietilpīga. Personai ir manuāli jāsalīdzina dokumenta oriģināls un elektroniskais teksts. Cilvēki pieļauj arī kļūdas, rakstot tekstu no dokumenta, taču dažreiz OCR darbību var izlaist ātrāk.