OCR सॉफ्टवेयर किसी दस्तावेज़ की छवि को इलेक्ट्रॉनिक टेक्स्ट में परिवर्तित करता है।
यू.एस. डाक सेवा डाक के टुकड़ों पर पतों को पढ़ने के लिए ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) तकनीक का उपयोग करती है। ओसीआर मेल सॉर्टर द्वारा मेल को पढ़ने योग्य होने के लिए, हालांकि, पते और फोंट को एक निश्चित तरीके से स्वरूपित करने की आवश्यकता होती है। ओसीआर सॉफ्टवेयर टाइप किए गए या हस्तलिखित दस्तावेजों की स्कैन की गई छवियों को खोजने योग्य इलेक्ट्रॉनिक टेक्स्ट में बदलने के लिए उपयोगी है, लेकिन इसके नुकसान हैं जो इसके अनुप्रयोगों को सीमित करते हैं।
सीमित दस्तावेज
ओसीआर अच्छी गुणवत्ता वाले टाइप किए गए दस्तावेजों के साथ सबसे अच्छा काम करता है। हस्तलिखित दस्तावेजों को ओसीआर सॉफ्टवेयर द्वारा आसानी से नहीं पढ़ा जा सकता है। इसी तरह, टाइप किए गए फॉन्ट जो लिखावट से मिलते-जुलते हैं - साथ ही गैर-लैटिन फोंट - ओसीआर प्रक्रिया के दौरान कई त्रुटियां पैदा करते हैं। यदि दस्तावेज़ का कंट्रास्ट खराब है, बढ़ा हुआ या गंदा है, या पाठ और पृष्ठभूमि अंधेरे में समान हैं, तो हो सकता है कि ओसीआर अच्छी तरह से काम न करे। OCR को ऐसे दस्तावेज़ों में कठिनाई होती है जिनमें चित्र और टेक्स्ट दोनों होते हैं। स्प्रैडशीट्स भी अधिक त्रुटियाँ उत्पन्न करेंगी।
दिन का वीडियो
शुद्धता
कोई भी ओसीआर सॉफ्टवेयर 100 प्रतिशत सटीक नहीं होता। त्रुटियों की संख्या उपयोग किए गए फ़ॉन्ट सहित गुणवत्ता और दस्तावेज़ के प्रकार पर निर्भर करती है। ओसीआर के दौरान होने वाली त्रुटियों में अक्षरों को गलत तरीके से पढ़ना, अपठनीय अक्षरों को छोड़ना, या आसन्न कॉलम या छवि कैप्शन से टेक्स्ट को एक साथ मिलाना शामिल है। यदि उच्च सटीकता की आवश्यकता है - जैसे कि डिजिटल पुस्तकों को इलेक्ट्रॉनिक प्रारूप में परिवर्तित करने के साथ - तो इलेक्ट्रॉनिक पाठ की सफाई की आवश्यकता होगी।
काम arounds
OCR को वर्णों के बीच अंतर करने में कठिनाई होती है, जैसे कि संख्या शून्य और एक कैपिटल "O"। इसे हल करने के लिए, एक विशेष ओसीआर फ़ॉन्ट का उपयोग किया जा सकता है, जैसे शून्य लिखना। हालाँकि, यह केवल OCR को ध्यान में रखकर बनाए गए दस्तावेज़ों के लिए काम करता है, जैसे कि प्रश्नावली। हाथ से लिखी जाने वाली प्रश्नावली बनाते समय, शोधकर्ता प्रत्येक अक्षर के लिए बक्से का भी उपयोग करते हैं।
अतिरिक्त कार्य
भले ही मूल दस्तावेज़ की स्कैन की गई छवि उच्च गुणवत्ता वाली हो, ओसीआर टेक्स्ट को साफ़ करने के लिए अतिरिक्त कदम उठाने होंगे। ओसीआर द्वारा बनाई गई त्रुटियों को ठीक करना बहुत श्रमसाध्य है। एक व्यक्ति को मूल दस्तावेज़ और इलेक्ट्रॉनिक पाठ की मैन्युअल रूप से तुलना करनी होती है। दस्तावेज़ से टेक्स्ट टाइप करते समय लोग त्रुटियाँ भी करते हैं, लेकिन कभी-कभी OCR चरण को छोड़ना तेज़ होता है।