OCR-Software wandelt ein Bild eines Dokuments in elektronischen Text um.
Der US-Postdienst verwendet die optische Zeichenerkennungstechnologie (OCR), um die Adressen auf Poststücken zu lesen. Damit die Post jedoch von einem OCR-Postsortierer gelesen werden kann, müssen die Adressen und Schriftarten auf eine bestimmte Weise formatiert werden. OCR-Software ist nützlich, um gescannte Bilder von getippten oder handgeschriebenen Dokumenten in durchsuchbaren elektronischen Text umzuwandeln, hat jedoch Nachteile, die ihre Anwendungsmöglichkeiten einschränken.
Begrenzte Dokumente
OCR funktioniert am besten mit getippten Dokumenten in guter Qualität. Handgeschriebene Dokumente können von OCR-Software nicht ohne weiteres gelesen werden. Ebenso verursachen getippte Schriftarten, die der Handschrift ähneln, sowie nicht-lateinische Schriftarten viele Fehler während des OCR-Prozesses. Wenn das Dokument einen geringen Kontrast aufweist, zerknittert oder verschmutzt ist oder Text und Hintergrund bei Dunkelheit ähnlich sind, funktioniert OCR möglicherweise nicht richtig. OCR hat Schwierigkeiten mit Dokumenten, die sowohl Bilder als auch Text enthalten. Tabellenkalkulationen produzieren auch mehr Fehler.
Video des Tages
Genauigkeit
Keine OCR-Software ist zu 100 Prozent genau. Die Anzahl der Fehler hängt von der Qualität und dem Typ des Dokuments ab, einschließlich der verwendeten Schriftart. Zu den Fehlern, die während der OCR auftreten, gehören das falsche Lesen von Buchstaben, das Überspringen von Buchstaben, die nicht lesbar sind, oder das Vermischen von Text aus benachbarten Spalten oder Bildbeschriftungen. Wenn hohe Genauigkeit erforderlich ist – wie bei der Konvertierung digitaler Bücher in ein elektronisches Format – ist eine Bereinigung des elektronischen Textes erforderlich.
Problemumgehungen
OCR hat Schwierigkeiten, zwischen Zeichen wie der Zahl Null und einem großen „O“ zu unterscheiden. Um dies zu umgehen, kann eine spezielle OCR-Schriftart verwendet werden, beispielsweise das Ausschreiben einer Null. Dies funktioniert jedoch nur für Dokumente, die mit OCR erstellt wurden, wie z. B. Fragebögen. Bei der Erstellung handschriftlicher Fragebögen verwenden die Forscher auch Kästchen für jeden Buchstaben.
Zusätzliche Arbeit
Auch wenn das gescannte Bild des Originaldokuments eine hohe Qualität aufweist, müssen zusätzliche Schritte ausgeführt werden, um den OCR-Text zu bereinigen. Es ist sehr arbeitsintensiv, die durch OCR erzeugten Fehler zu korrigieren. Eine Person muss das Originaldokument und den elektronischen Text manuell vergleichen. Menschen machen auch Fehler beim Eingeben von Text aus einem Dokument, aber manchmal ist es schneller, den OCR-Schritt zu überspringen.