OCR-programvara konverterar en bild av ett dokument till elektronisk text.
U.S. Postal Service använder teknologi för optisk teckenigenkänning (OCR) för att läsa adresserna på postförsändelser. För att posten ska vara läsbar av en OCR-postsorterare måste adresserna och typsnitten formateras på ett visst sätt. OCR-programvara är användbar för att konvertera skannade bilder av maskinskrivna eller handskrivna dokument till sökbar elektronisk text, men den har nackdelar som begränsar dess tillämpningar.
Begränsade dokument
OCR fungerar bäst med maskinskrivna dokument av god kvalitet. Handskrivna dokument kan inte lätt läsas av OCR-programvara. På samma sätt skapar typsnitt som liknar handskrift - såväl som icke-latinska teckensnitt - många fel under OCR-processen. Om dokumentet har dålig kontrast, är skrynkligt eller smutsigt, eller om texten och bakgrunden är lika i mörker, kanske OCR inte fungerar bra. OCR har svårt med dokument som har både bilder och text. Kalkylark ger också fler fel.
Dagens video
Noggrannhet
Ingen OCR-programvara är 100 procent korrekt. Antalet fel beror på kvaliteten och typen av dokument, inklusive typsnittet som används. Fel som uppstår under OCR inkluderar felläsning av bokstäver, hoppa över bokstäver som är oläsliga eller blanda ihop text från intilliggande kolumner eller bildtexter. Om hög noggrannhet krävs - som med att konvertera digitala böcker till elektroniskt format - kommer det att behövas en rensning av den elektroniska texten.
Work-arounds
OCR har svårt att skilja mellan tecken, som siffran noll och ett stort "O". För att komma runt detta kan ett speciellt OCR-teckensnitt användas, som att skriva ut noll. Detta fungerar dock bara för dokument som skapats med OCR i åtanke, till exempel frågeformulär. När forskarna skapar enkäter som ska skrivas för hand använder forskarna även rutor för varje bokstav.
Extra arbete
Även om den skannade bilden av originaldokumentet är av hög kvalitet måste ytterligare steg vidtas för att rensa upp OCR-texten. Det är mycket arbetskrävande att korrigera de fel som skapas av OCR. En person måste manuellt jämföra originaldokumentet och den elektroniska texten. Människor gör också fel när de skriver text från ett dokument, men ibland går det snabbare att hoppa över OCR-steget.