OCR: n haitat

...

OCR-ohjelmisto muuntaa asiakirjan kuvan sähköiseksi tekstiksi.

Yhdysvaltain postipalvelu käyttää optista merkintunnistustekniikkaa (OCR) lukeakseen postilähetysten osoitteet. Jotta viesti olisi luettavissa OCR-postilajittelijalla, osoitteet ja fontit on kuitenkin muotoiltava tietyllä tavalla. OCR-ohjelmisto on hyödyllinen muunnettaessa skannatut kuvat kirjoitetuista tai käsinkirjoitetuista asiakirjoista haettavaksi sähköiseksi tekstiksi, mutta sillä on haittoja, jotka rajoittavat sen sovelluksia.

Rajoitettu asiakirjoja

OCR toimii parhaiten laadukkailla kirjoitetuilla asiakirjoilla. Käsinkirjoitettuja asiakirjoja ei voi lukea helposti OCR-ohjelmistolla. Samoin käsinkirjoitusta muistuttavat kirjoitetut kirjasimet – samoin kuin ei-latinalaiset kirjasimet – aiheuttavat monia virheitä OCR-prosessin aikana. Jos asiakirjan kontrasti on huono, se on rypistynyt tai likainen tai teksti ja tausta ovat samankaltaisia ​​tummuudessa, tekstintunnistus ei välttämättä toimi hyvin. Tekstintunnistuksessa on vaikeuksia asiakirjoissa, joissa on sekä kuvia että tekstiä. Laskentataulukot tuottavat myös enemmän virheitä.

Päivän video

Tarkkuus

Mikään OCR-ohjelmisto ei ole 100 prosentin tarkka. Virheiden määrä riippuu asiakirjan laadusta ja tyypistä, mukaan lukien käytetty fontti. Tekstintunnistuksen aikana ilmeneviä virheitä ovat kirjainten väärinlukeminen, lukukelvottomia kirjaimia ohittaminen tai vierekkäisten sarakkeiden tekstin tai kuvatekstien sekoittaminen yhteen. Jos vaaditaan suurta tarkkuutta - kuten digitaalisten kirjojen muuntaminen sähköiseen muotoon -, sähköinen teksti on puhdistettava.

Työkierrot

OCR: llä on vaikeuksia erottaa toisistaan ​​merkit, kuten numero nolla ja iso "O". Tämän kiertämiseksi voidaan käyttää erityistä OCR-fonttia, kuten kirjoittaa nolla. Tämä toimii kuitenkin vain tekstintunnistusta varten luoduille asiakirjoille, kuten kyselylomakkeille. Käsin kirjoitettavia kyselylomakkeita tehdessään tutkijat käyttävät myös laatikoita jokaiselle kirjaimelle.

Lisätyöt

Vaikka alkuperäisen asiakirjan skannattu kuva olisi korkealaatuinen, OCR-tekstin puhdistaminen edellyttää lisätoimenpiteitä. OCR: n aiheuttamien virheiden korjaaminen on erittäin työlästä. Henkilön on verrattava manuaalisesti alkuperäistä asiakirjaa ja sähköistä tekstiä. Ihmiset tekevät myös virheitä kirjoittaessaan tekstiä asiakirjasta, mutta joskus tekstintunnistusvaiheen ohittaminen on nopeampaa.