Недоліки OCR

...

Програмне забезпечення OCR перетворює зображення документа в електронний текст.

Поштова служба США використовує технологію оптичного розпізнавання символів (OCR) для зчитування адрес у листах. Однак для того, щоб пошту можна було прочитати за допомогою сортувальника пошти OCR, адреси та шрифти мають бути відформатовані певним чином. Програмне забезпечення OCR корисно для перетворення відсканованих зображень надрукованих або рукописних документів в електронний текст з можливістю пошуку, але воно має недоліки, які обмежують його застосування.

Обмежені документи

OCR найкраще працює з якісними надрукованими документами. Рукописні документи не можуть бути легко прочитані програмним забезпеченням OCR. Аналогічно, набрані шрифти, які нагадують рукописні, а також нелатинські шрифти, створюють багато помилок під час процесу OCR. Якщо документ має низьку контрастність, пом’ятий або забруднений, або текст і фон подібні в темряві, OCR може працювати погано. OCR має труднощі з документами, які мають як зображення, так і текст. Електронні таблиці також створюватимуть більше помилок.

Відео дня

Точність

Жодне програмне забезпечення для розпізнавання текстів не є на 100 відсотків точним. Кількість помилок залежить від якості та типу документа, включаючи використаний шрифт. Помилки, які виникають під час OCR, включають неправильне читання літер, пропуск літер, які не можна прочитати, або змішування тексту з сусідніх стовпців або підписів до зображень. Якщо потрібна висока точність — як у випадку перетворення цифрових книг в електронний формат — тоді знадобиться очищення електронного тексту.

Заходи

OCR має труднощі з розрізненням символів, наприклад числа нуль і великої букви "О". Щоб обійти це, можна використовувати спеціальний шрифт OCR, наприклад, запис нуля. Однак це працює лише для документів, створених з урахуванням OCR, наприклад анкет. При створенні анкет, які будуть написані від руки, дослідники також використовують поля для кожної літери.

Додаткова робота

Навіть якщо скановане зображення оригінального документа є високоякісним, необхідно виконати додаткові дії для очищення тексту OCR. Виправити помилки, створені OCR, дуже трудомістко. Людина повинна вручну порівняти оригінальний документ і електронний текст. Люди також роблять помилки під час введення тексту з документа, але іноді швидше пропустити крок OCR.