Les inconvénients de l'OCR

...

Le logiciel OCR convertit une image d'un document en texte électronique.

Le service postal américain utilise la technologie de reconnaissance optique de caractères (OCR) pour lire les adresses sur les pièces de courrier. Cependant, pour que le courrier soit lisible par une trieuse de courrier OCR, les adresses et les polices doivent être formatées d'une certaine manière. Le logiciel OCR est utile pour convertir des images numérisées de documents dactylographiés ou manuscrits en texte électronique consultable, mais il présente des inconvénients qui limitent ses applications.

Documents limités

L'OCR fonctionne mieux avec des documents dactylographiés de bonne qualité. Les documents manuscrits ne peuvent pas être facilement lus par le logiciel OCR. De même, les polices dactylographiées qui ressemblent à l'écriture manuscrite, ainsi que les polices non latines, créent de nombreuses erreurs pendant le processus d'OCR. Si le document présente un faible contraste, est froissé ou sale, ou si le texte et l'arrière-plan sont similaires dans l'obscurité, l'OCR peut ne pas fonctionner correctement. L'OCR a des difficultés avec les documents contenant à la fois des images et du texte. Les feuilles de calcul produiront également plus d'erreurs.

Vidéo du jour

Précision

Aucun logiciel d'OCR n'est précis à 100 %. Le nombre d'erreurs dépend de la qualité et du type de document, y compris la police utilisée. Les erreurs qui se produisent pendant l'OCR incluent la lecture erronée de lettres, le saut de lettres illisibles ou le mélange de textes provenant de colonnes adjacentes ou de légendes d'images. Si une grande précision est requise - comme pour la conversion de livres numériques au format électronique - alors un nettoyage du texte électronique sera nécessaire.

Solutions de contournement

L'OCR a du mal à différencier les caractères, tels que le chiffre zéro et un « O » majuscule. Pour contourner ce problème, une police OCR spéciale peut être utilisée, telle que l'écriture de zéro. Cependant, cela ne fonctionne que pour les documents créés avec OCR à l'esprit, tels que les questionnaires. Lors de la création de questionnaires qui seront écrits à la main, les chercheurs utilisent également des cases pour chaque lettre.

Travail supplémentaire

Même si l'image numérisée du document original est de haute qualité, des étapes supplémentaires doivent être effectuées pour nettoyer le texte OCR. Il est très laborieux de corriger les erreurs créées par l'OCR. Une personne doit comparer manuellement le document original et le texte électronique. Les gens commettent également des erreurs lors de la saisie de texte à partir d'un document, mais il est parfois plus rapide d'ignorer l'étape d'OCR.