Wady OCR

click fraud protection
...

Oprogramowanie OCR konwertuje obraz dokumentu na tekst elektroniczny.

US Postal Service wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do odczytywania adresów z przesyłek pocztowych. Aby jednak poczta była czytelna przez sorter poczty OCR, adresy i czcionki muszą być sformatowane w określony sposób. Oprogramowanie OCR jest przydatne do konwertowania zeskanowanych obrazów dokumentów pisanych na maszynie lub odręcznych do przeszukiwalnego tekstu elektronicznego, ale ma wady, które ograniczają jego zastosowania.

Ograniczone dokumenty

OCR działa najlepiej w przypadku dobrej jakości pisanych dokumentów. Odręczne dokumenty nie mogą być łatwo odczytane przez oprogramowanie OCR. Podobnie czcionki, które przypominają pismo odręczne — a także czcionki inne niż łacińskie — powodują wiele błędów podczas procesu rozpoznawania OCR. Jeśli dokument ma słaby kontrast, jest pognieciony lub brudny lub tekst i tło są podobne w ciemności, funkcja OCR może nie działać prawidłowo. OCR ma trudności z dokumentami, które zawierają zarówno obrazy, jak i tekst. Arkusze kalkulacyjne będą również powodować więcej błędów.

Wideo dnia

Dokładność

Żadne oprogramowanie OCR nie jest w 100% dokładne. Liczba błędów zależy od jakości i typu dokumentu, w tym od użytej czcionki. Błędy występujące podczas rozpoznawania OCR obejmują błędne odczytywanie liter, pomijanie liter, które są nieczytelne lub mieszanie tekstu z sąsiednich kolumn lub podpisów obrazów. Jeśli wymagana jest wysoka dokładność – jak przy konwersji książek cyfrowych na format elektroniczny – konieczne będzie oczyszczenie tekstu elektronicznego.

Obejścia

OCR ma trudności z rozróżnieniem znaków, takich jak cyfra zero i duże „O”. Aby obejść ten problem, można użyć specjalnej czcionki OCR, na przykład wypisać zero. Działa to jednak tylko w przypadku dokumentów tworzonych z myślą o OCR, takich jak kwestionariusze. Tworząc kwestionariusze, które będą pisane odręcznie, badacze używają również pudełek na każdy list.

Dodatkowa praca

Nawet jeśli zeskanowany obraz oryginalnego dokumentu jest wysokiej jakości, należy wykonać dodatkowe czynności w celu oczyszczenia tekstu OCR. Poprawianie błędów powstałych przez OCR jest bardzo pracochłonne. Osoba musi ręcznie porównać oryginalny dokument z tekstem elektronicznym. Ludzie również popełniają błędy podczas wpisywania tekstu z dokumentu, ale czasami szybciej jest pominąć krok OCR.