El software OCR convierte una imagen de un documento en texto electrónico.
El Servicio Postal de los EE. UU. Utiliza tecnología de reconocimiento óptico de caracteres (OCR) para leer las direcciones en las piezas de correo. Sin embargo, para que el correo sea legible por un clasificador de correo OCR, las direcciones y fuentes deben formatearse de cierta manera. El software OCR es útil para convertir imágenes escaneadas de documentos mecanografiados o escritos a mano en texto electrónico con capacidad de búsqueda, pero tiene desventajas que limitan sus aplicaciones.
Documentos limitados
El OCR funciona mejor con documentos mecanografiados de buena calidad. Los documentos escritos a mano no se pueden leer fácilmente con el software OCR. Del mismo modo, las fuentes mecanografiadas que se asemejan a la escritura a mano, así como las fuentes no latinas, crean muchos errores durante el proceso de OCR. Si el documento tiene poco contraste, está arrugado o sucio, o el texto y el fondo son similares en la oscuridad, es posible que el OCR no funcione bien. OCR tiene dificultades con documentos que tienen imágenes y texto. Las hojas de cálculo también producirán más errores.
Video del día
Exactitud
Ningún software de OCR es 100% preciso. El número de errores depende de la calidad y el tipo de documento, incluida la fuente utilizada. Los errores que ocurren durante el OCR incluyen lectura incorrecta de letras, omitir letras ilegibles o mezclar texto de columnas adyacentes o leyendas de imágenes. Si se requiere una alta precisión, como con la conversión de libros digitales a formato electrónico, se necesitará una limpieza del texto electrónico.
Soluciones alternativas
OCR tiene dificultades para diferenciar entre caracteres, como el número cero y una "O" mayúscula. Para solucionar este problema, se puede utilizar una fuente de OCR especial, como escribir cero. Sin embargo, esto solo funciona para documentos creados con OCR en mente, como cuestionarios. Al crear cuestionarios que serán escritos a mano, los investigadores también usan recuadros para cada letra.
Trabajo adicional
Incluso si la imagen escaneada del documento original es de alta calidad, se deben realizar pasos adicionales para limpiar el texto OCR. Es muy laborioso corregir los errores creados por OCR. Una persona tiene que comparar manualmente el documento original y el texto electrónico. Las personas también cometen errores al escribir texto de un documento, pero a veces es más rápido omitir el paso de OCR.