Il software OCR converte l'immagine di un documento in testo elettronico.
Il servizio postale degli Stati Uniti utilizza la tecnologia di riconoscimento ottico dei caratteri (OCR) per leggere gli indirizzi sui pezzi di posta. Affinché la posta sia leggibile da un sorter di posta OCR, tuttavia, gli indirizzi e i caratteri devono essere formattati in un determinato modo. Il software OCR è utile per convertire le immagini scansionate di documenti digitati o scritti a mano in testo elettronico ricercabile, ma presenta degli svantaggi che ne limitano le applicazioni.
Documenti limitati
L'OCR funziona al meglio con documenti dattiloscritti di buona qualità. I documenti scritti a mano non possono essere letti facilmente dal software OCR. Allo stesso modo, i caratteri digitati che assomigliano alla scrittura a mano, così come i caratteri non latini, creano molti errori durante il processo di riconoscimento. Se il documento ha uno scarso contrasto, è sgualcito o sporco, oppure il testo e lo sfondo sono simili nell'oscurità, l'OCR potrebbe non funzionare correttamente. L'OCR ha difficoltà con i documenti che contengono sia immagini che testo. I fogli di calcolo produrranno anche più errori.
Video del giorno
Precisione
Nessun software OCR è accurato al 100%. Il numero di errori dipende dalla qualità e dal tipo di documento, incluso il carattere utilizzato. Gli errori che si verificano durante l'OCR includono la lettura errata delle lettere, il salto di lettere illeggibili o la combinazione di testo da colonne adiacenti o didascalie delle immagini. Se è richiesta un'elevata precisione, come per la conversione di libri digitali in formato elettronico, sarà necessaria una ripulitura del testo elettronico.
Soluzioni alternative
L'OCR ha difficoltà a distinguere i caratteri, ad esempio il numero zero e una "O" maiuscola. Per ovviare a questo problema, è possibile utilizzare uno speciale carattere OCR, ad esempio scrivere zero. Tuttavia, questo funziona solo per i documenti creati pensando all'OCR, come i questionari. Quando creano questionari che saranno scritti a mano, i ricercatori usano anche caselle per ogni lettera.
Lavoro extra
Anche se l'immagine scansionata del documento originale è di alta qualità, è necessario eseguire ulteriori passaggi per ripulire il testo OCR. È molto laborioso correggere gli errori creati dall'OCR. Una persona deve confrontare manualmente il documento originale e il testo elettronico. Le persone commettono errori anche durante la digitazione del testo da un documento, ma a volte è più veloce saltare il passaggio dell'OCR.