De nadelen van OCR

...

OCR-software converteert een afbeelding van een document naar elektronische tekst.

De U.S. Postal Service gebruikt optische tekenherkenningstechnologie (OCR) om de adressen op poststukken te lezen. Om de e-mail leesbaar te maken voor een OCR-mailsorteerder, moeten de adressen en lettertypen echter op een bepaalde manier worden opgemaakt. OCR-software is handig voor het converteren van gescande afbeeldingen van getypte of handgeschreven documenten naar doorzoekbare elektronische tekst, maar het heeft nadelen die de toepassingen ervan beperken.

Beperkte documenten

OCR werkt het beste met getypte documenten van goede kwaliteit. Handgeschreven documenten kunnen niet gemakkelijk worden gelezen door OCR-software. Evenzo veroorzaken getypte lettertypen die op handschrift lijken - evenals niet-Latijnse lettertypen - veel fouten tijdens het OCR-proces. Als het document een slecht contrast heeft, gekreukt of vuil is, of als de tekst en de achtergrond donker zijn, werkt OCR mogelijk niet goed. OCR heeft moeite met documenten die zowel afbeeldingen als tekst bevatten. Spreadsheets zullen ook meer fouten produceren.

Video van de dag

Nauwkeurigheid

Geen enkele OCR-software is 100 procent nauwkeurig. Het aantal fouten hangt af van de kwaliteit en het type document, inclusief het gebruikte lettertype. Fouten die optreden tijdens OCR zijn onder meer het verkeerd lezen van letters, het overslaan van letters die onleesbaar zijn of het vermengen van tekst uit aangrenzende kolommen of afbeeldingsbijschriften. Als een hoge nauwkeurigheid vereist is - zoals bij het converteren van digitale boeken naar elektronisch formaat - dan is een opschoning van de elektronische tekst nodig.

Tijdelijke oplossingen

OCR heeft moeite om onderscheid te maken tussen tekens, zoals het cijfer nul en een hoofdletter 'O'. Om dit te omzeilen kan een speciaal OCR-lettertype worden gebruikt, zoals nul uitschrijven. Dit werkt echter alleen voor documenten die zijn gemaakt met OCR in gedachten, zoals vragenlijsten. Bij het maken van vragenlijsten die met de hand worden geschreven, gebruiken onderzoekers ook vakjes voor elke letter.

Extra werk

Zelfs als de gescande afbeelding van het originele document van hoge kwaliteit is, moeten er extra stappen worden ondernomen om de OCR-tekst op te schonen. Het is zeer arbeidsintensief om de fouten die door OCR zijn veroorzaakt te corrigeren. Een persoon moet het originele document en de elektronische tekst handmatig vergelijken. Mensen maken ook fouten bij het typen van tekst uit een document, maar soms is het sneller om de OCR-stap over te slaan.