Недостаци ОЦР-а

...

ОЦР софтвер претвара слику документа у електронски текст.

Америчка поштанска служба користи технологију оптичког препознавања знакова (ОЦР) за читање адреса на поштанским пошиљкама. Међутим, да би пошта била читљива помоћу ОЦР сортера поште, адресе и фонтови морају бити форматирани на одређени начин. ОЦР софтвер је користан за претварање скенираних слика откуцаних или руком писаних докумената у електронски текст који се може претраживати, али има недостатке који ограничавају његову примену.

Ограничени документи

ОЦР најбоље функционише са квалитетним откуцаним документима. ОЦР софтвер не може лако прочитати руком писане документе. Исто тако, откуцани фонтови који подсећају на рукопис -- као и нелатински фонтови -- стварају многе грешке током ОЦР процеса. Ако документ има лош контраст, изгужван је или прљав, или су текст и позадина слични у мраку, онда ОЦР можда неће добро функционисати. ОЦР има потешкоћа са документима који имају и слике и текст. Табеле ће такође произвести више грешака.

Видео дана

Прецизност

Ниједан софтвер за ОЦР није 100 посто тачан. Број грешака зависи од квалитета и врсте документа, укључујући коришћени фонт. Грешке које се јављају током ОЦР-а укључују погрешно читање слова, прескакање слова која нису читљива или мешање текста из суседних колона или наслова слика. Ако је потребна висока прецизност -- као код претварања дигиталних књига у електронски формат -- онда ће бити потребно чишћење електронског текста.

Ворк-Ароундс

ОЦР има потешкоћа у разликовању знакова, као што су број нула и велико „О“. Да бисте заобишли ово, може се користити посебан ОЦР фонт, као што је исписивање нуле. Међутим, ово функционише само за документе креиране са ОЦР на уму, као што су упитници. Приликом креирања упитника који ће бити писани руком, истраживачи користе и кутије за свако слово.

Додатни рад

Чак и ако је скенирана слика оригиналног документа високог квалитета, морају се извршити додатни кораци за чишћење ОЦР текста. Исправљање грешака које ствара ОЦР је веома напорно. Особа мора ручно да упореди оригинални документ и електронски текст. Људи такође праве грешке када куцају текст из документа, али понекад је брже прескочити ОЦР корак.