As desvantagens do OCR

click fraud protection
...

O software OCR converte a imagem de um documento em texto eletrônico.

O Serviço Postal dos EUA usa tecnologia de reconhecimento óptico de caracteres (OCR) para ler os endereços em peças de correio. Para que o e-mail possa ser lido por um classificador de e-mail OCR, no entanto, os endereços e as fontes precisam ser formatados de uma determinada maneira. O software OCR é útil para converter imagens digitalizadas de documentos digitados ou manuscritos em texto eletrônico pesquisável, mas tem desvantagens que limitam suas aplicações.

Documentos Limitados

O OCR funciona melhor com documentos digitados de boa qualidade. Documentos manuscritos não podem ser lidos facilmente pelo software OCR. Da mesma forma, fontes digitadas que lembram escrita à mão - assim como fontes não latinas - criam muitos erros durante o processo de OCR. Se o documento tiver contraste insuficiente, estiver vincado ou sujo, ou se o texto e o fundo forem semelhantes em escuridão, o OCR pode não funcionar bem. O OCR tem dificuldade com documentos que contêm imagens e texto. As planilhas também produzirão mais erros.

Vídeo do dia

Precisão

Nenhum software de OCR é 100 por cento preciso. O número de erros depende da qualidade e do tipo de documento, incluindo a fonte usada. Os erros que ocorrem durante o OCR incluem a leitura incorreta de letras, o salto de letras ilegíveis ou a mistura de texto de colunas adjacentes ou legendas de imagens. Se for necessária alta precisão - como acontece com a conversão de livros digitais em formato eletrônico - será necessária uma limpeza do texto eletrônico.

Work-Arounds

O OCR tem dificuldade em diferenciar caracteres, como o número zero e um "O" maiúsculo. Para contornar isso, uma fonte OCR especial pode ser usada, como escrever zero. No entanto, isso funciona apenas para documentos criados com o OCR em mente, como questionários. Ao criar questionários que serão escritos à mão, os pesquisadores também usam caixas para cada letra.

Trabalho adicional

Mesmo se a imagem digitalizada do documento original for de alta qualidade, etapas adicionais devem ocorrer para limpar o texto de OCR. É muito trabalhoso corrigir os erros criados pelo OCR. Uma pessoa deve comparar manualmente o documento original e o texto eletrônico. As pessoas também cometem erros ao digitar o texto de um documento, mas às vezes é mais rápido pular a etapa de OCR.