OCR-software konverterer et billede af et dokument til elektronisk tekst.
U.S. Postal Service bruger optisk tegngenkendelse (OCR) teknologi til at læse adresserne på poststykker. For at posten kan læses af en OCR-postsorteringsmaskine, skal adresserne og skrifttyperne formateres på en bestemt måde. OCR-software er nyttig til at konvertere scannede billeder af maskinskrevne eller håndskrevne dokumenter til søgbar elektronisk tekst, men den har ulemper, der begrænser dens anvendelser.
Begrænsede dokumenter
OCR fungerer bedst med maskinskrevne dokumenter af god kvalitet. Håndskrevne dokumenter kan ikke let læses af OCR-software. På samme måde skaber indtastede skrifttyper, der ligner håndskrift - såvel som ikke-latinske skrifttyper - mange fejl under OCR-processen. Hvis dokumentet har dårlig kontrast, er krøllet eller snavset, eller teksten og baggrunden ligner hinanden i mørke, fungerer OCR muligvis ikke godt. OCR har svært ved dokumenter, der har både billeder og tekst. Regneark vil også producere flere fejl.
Dagens video
Nøjagtighed
Ingen OCR-software er 100 procent nøjagtige. Antallet af fejl afhænger af kvaliteten og typen af dokument, inklusive den anvendte skrifttype. Fejl, der opstår under OCR, omfatter fejllæsning af bogstaver, spring over bogstaver, der er ulæselige, eller sammenblanding af tekst fra tilstødende kolonner eller billedtekster. Hvis der kræves høj nøjagtighed - som med konvertering af digitale bøger til elektronisk format - vil det være nødvendigt med en oprydning i den elektroniske tekst.
Work-arounds
OCR har svært ved at skelne mellem tegn, såsom tallet nul og et stort "O". For at omgå dette kan en speciel OCR-skrifttype bruges, såsom at skrive nul. Dette virker dog kun for dokumenter, der er oprettet med OCR i tankerne, såsom spørgeskemaer. Når forskerne laver spørgeskemaer, der vil være håndskrevne, bruger forskerne også kasser til hvert bogstav.
Ekstra arbejde
Selvom det scannede billede af originaldokumentet er af høj kvalitet, skal der udføres yderligere trin for at rydde op i OCR-teksten. Det er meget arbejdskrævende at rette de fejl, der er skabt af OCR. En person skal manuelt sammenligne det originale dokument og den elektroniske tekst. Folk laver også fejl, når de skriver tekst fra et dokument, men nogle gange er det hurtigere at springe OCR-trinnet over.