Недостатки OCR

...

Программа OCR преобразует изображение документа в электронный текст.

Почтовая служба США использует технологию оптического распознавания символов (OCR) для чтения адресов на почтовых отправлениях. Однако для того, чтобы почтовое сообщение могло быть прочитано сортировщиком почты OCR, адреса и шрифты должны быть отформатированы определенным образом. Программное обеспечение OCR полезно для преобразования отсканированных изображений печатных или рукописных документов в электронный текст с возможностью поиска, но у него есть недостатки, ограничивающие возможности его применения.

Ограниченные документы

OCR лучше всего работает с печатными документами хорошего качества. Рукописные документы не могут быть легко прочитаны программой оптического распознавания текста. Точно так же печатные шрифты, напоминающие рукописный текст, а также нелатинские шрифты, создают множество ошибок в процессе распознавания текста. Если документ имеет низкую контрастность, складки или грязь, или текст и фон похожи по темноте, то функция распознавания текста может работать некорректно. OCR испытывает трудности с документами, которые содержат как изображения, так и текст. Таблицы также будут давать больше ошибок.

Видео дня

Точность

Ни одно программное обеспечение для оптического распознавания текста не является точным на 100 процентов. Количество ошибок зависит от качества и типа документа, включая используемый шрифт. Ошибки, возникающие при распознавании текста, включают неправильное чтение букв, пропуск нечитаемых букв или смешивание текста из соседних столбцов или подписей к изображениям. Если требуется высокая точность - например, при преобразовании цифровых книг в электронный формат - тогда потребуется очистка электронного текста.

Рабочие места

OCR затрудняет различение символов, таких как цифра ноль и заглавная буква "O". Чтобы обойти это, можно использовать специальный шрифт OCR, например ноль. Однако это работает только для документов, созданных с учетом OCR, таких как анкеты. При создании вопросников, которые будут написаны от руки, исследователи также используют поля для каждой буквы.

Дополнительная работа

Даже если отсканированное изображение исходного документа высокого качества, необходимо выполнить дополнительные действия для очистки текста OCR. Исправление ошибок, созданных OCR, очень трудозатратно. Человек должен вручную сравнить исходный документ и электронный текст. Люди также делают ошибки при вводе текста из документа, но иногда быстрее пропустить этап распознавания текста.