OCR'nin Dezavantajları

...

OCR yazılımı, bir belgenin görüntüsünü elektronik metne dönüştürür.

ABD Posta Servisi, posta parçalarındaki adresleri okumak için optik karakter tanıma (OCR) teknolojisini kullanır. Ancak postanın bir OCR posta sıralayıcısı tarafından okunabilmesi için adreslerin ve yazı tiplerinin belirli bir şekilde biçimlendirilmesi gerekir. OCR yazılımı, daktilo edilmiş veya elle yazılmış belgelerin taranmış görüntülerini aranabilir elektronik metne dönüştürmek için kullanışlıdır, ancak uygulamalarını sınırlayan dezavantajları vardır.

Sınırlı Belgeler

OCR, iyi kalitede yazılmış belgelerde en iyi sonucu verir. El yazısı belgeler OCR yazılımı tarafından kolayca okunamaz. Benzer şekilde, el yazısına benzeyen yazılan yazı tipleri - Latin olmayan yazı tiplerinin yanı sıra - OCR işlemi sırasında birçok hata oluşturur. Belgenin kontrastı zayıfsa, kırışmış veya kirliyse veya karanlıkta metin ve arka plan benzerse, OCR iyi çalışmayabilir. OCR, hem görüntü hem de metin içeren belgelerde zorluk yaşar. E-tablolar ayrıca daha fazla hata üretecektir.

Günün Videosu

Kesinlik

Hiçbir OCR yazılımı yüzde 100 doğru değildir. Hataların sayısı, kullanılan yazı tipi de dahil olmak üzere belgenin kalitesine ve türüne bağlıdır. OCR sırasında meydana gelen hatalar arasında harflerin yanlış okunması, okunamayan harflerin üzerinden atlanması veya bitişik sütunlardaki veya resim başlıklarındaki metinlerin birbirine karıştırılması yer alır. Yüksek doğruluk gerekiyorsa – dijital kitapları elektronik formata dönüştürmekte olduğu gibi – elektronik metnin temizlenmesi gerekecektir.

Çalışma Çevreleri

OCR, sıfır sayısı ve büyük harf "O" gibi karakterler arasında ayrım yapmakta güçlük çekiyor. Bu sorunu çözmek için sıfır yazmak gibi özel bir OCR yazı tipi kullanılabilir. Ancak bu, yalnızca anketler gibi OCR düşünülerek oluşturulan belgeler için çalışır. Araştırmacılar, elle yazılacak anketleri oluştururken her harf için kutular da kullanırlar.

Ek iş

Orijinal belgenin taranan görüntüsü yüksek kalitede olsa bile, OCR metnini temizlemek için ek adımlar gerçekleştirilmelidir. OCR'nin yarattığı hataları düzeltmek çok emek ister. Bir kişinin orijinal belgeyi ve elektronik metni manuel olarak karşılaştırması gerekir. İnsanlar bir belgeden metin yazarken de hata yaparlar, ancak bazen OCR adımını atlamak daha hızlıdır.