Недостатъците на OCR

...

OCR софтуерът преобразува изображение на документ в електронен текст.

Пощенската служба на САЩ използва технологията за оптично разпознаване на символи (OCR), за да чете адресите в пощенските пратки. За да може пощата да се чете от OCR сортировчик на поща обаче, адресите и шрифтовете трябва да бъдат форматирани по определен начин. Софтуерът за OCR е полезен за преобразуване на сканирани изображения на въведени или ръкописни документи в електронен текст с възможност за търсене, но има недостатъци, които ограничават приложенията му.

Ограничени документи

OCR работи най-добре с висококачествени въведени документи. Ръкописните документи не могат да се четат лесно от софтуера за OCR. По същия начин въведените шрифтове, които наподобяват ръкописни - както и не-латински шрифтове - създават много грешки по време на процеса на OCR. Ако документът има лош контраст, е намачкан или замърсен или текстът и фонът са сходни в тъмнината, тогава OCR може да не работи добре. OCR има затруднения с документи, които имат както изображения, така и текст. Електронните таблици също ще доведат до повече грешки.

Видео на деня

точност

Никой софтуер за OCR не е 100 процента точен. Броят на грешките зависи от качеството и вида на документа, включително използвания шрифт. Грешките, които възникват по време на OCR, включват неправилно четене на букви, прескачане на букви, които са нечетливи, или смесване на текст от съседни колони или надписи на изображения. Ако се изисква висока точност - както при конвертирането на цифрови книги в електронен формат - тогава ще е необходимо изчистване на електронния текст.

Заобикалящи действия

OCR среща трудности при разграничаването на знаци, като числото нула и главното „О“. За да заобиколите това, може да се използва специален OCR шрифт, като например изписване на нула. Това обаче работи само за документи, създадени с OCR предвид, като въпросници. Когато създават въпросници, които ще бъдат написани на ръка, изследователите също използват полета за всяка буква.

Допълнителна работа

Дори ако сканираното изображение на оригиналния документ е с високо качество, трябва да се извършат допълнителни стъпки за почистване на OCR текста. Коригирането на грешките, създадени от OCR, е много трудоемко. Човек трябва ръчно да сравни оригиналния документ и електронния текст. Хората също правят грешки, когато въвеждат текст от документ, но понякога е по-бързо да пропуснете стъпката за OCR.