Kekurangan OCR

...

Perangkat lunak OCR mengubah gambar dokumen menjadi teks elektronik.

Layanan Pos A.S. menggunakan teknologi optical character recognition (OCR) untuk membaca alamat pada potongan surat. Namun, agar surat dapat dibaca oleh penyortir surat OCR, alamat dan font harus diformat dengan cara tertentu. Perangkat lunak OCR berguna untuk mengonversi gambar pindaian dari dokumen yang diketik atau ditulis tangan menjadi teks elektronik yang dapat dicari, tetapi perangkat lunak ini memiliki kelemahan yang membatasi penerapannya.

Dokumen Terbatas

OCR bekerja paling baik dengan dokumen yang diketik berkualitas baik. Dokumen tulisan tangan tidak dapat dengan mudah dibaca oleh perangkat lunak OCR. Demikian juga, font yang diketik yang menyerupai tulisan tangan -- serta font non-Latin -- membuat banyak kesalahan selama proses OCR. Jika dokumen memiliki kontras yang buruk, kusut atau kotor, atau teks dan latar belakangnya serupa dalam kegelapan, maka OCR mungkin tidak berfungsi dengan baik. OCR mengalami kesulitan dengan dokumen yang memiliki gambar dan teks. Spreadsheet juga akan menghasilkan lebih banyak kesalahan.

Video Hari Ini

Ketepatan

Tidak ada perangkat lunak OCR yang 100 persen akurat. Jumlah kesalahan tergantung pada kualitas dan jenis dokumen, termasuk font yang digunakan. Kesalahan yang terjadi selama OCR termasuk salah membaca huruf, melewatkan huruf yang tidak dapat dibaca, atau mencampur teks dari kolom atau keterangan gambar yang berdekatan. Jika akurasi tinggi diperlukan -- seperti mengonversi buku digital ke format elektronik -- maka diperlukan pembersihan teks elektronik.

Kerja-Sekitar

OCR mengalami kesulitan membedakan antara karakter, seperti angka nol dan huruf kapital "O". Untuk mengatasi ini, font OCR khusus dapat digunakan, seperti menulis nol. Namun, ini hanya berfungsi untuk dokumen yang dibuat dengan mempertimbangkan OCR, seperti kuesioner. Saat membuat angket yang akan ditulis tangan, peneliti juga menggunakan kotak untuk setiap hurufnya.

Pekerjaan tambahan

Meskipun gambar pindaian dokumen asli berkualitas tinggi, langkah-langkah tambahan harus dilakukan untuk membersihkan teks OCR. Sangat melelahkan untuk memperbaiki kesalahan yang dibuat oleh OCR. Seseorang harus membandingkan dokumen asli dan teks elektronik secara manual. Orang juga membuat kesalahan saat mengetik teks dari dokumen, tetapi terkadang lebih cepat melewati langkah OCR.