החסרונות של OCR

...

תוכנת OCR ממירה תמונה של מסמך לטקסט אלקטרוני.

שירות הדואר של ארה"ב משתמש בטכנולוגיית זיהוי תווים אופטי (OCR) כדי לקרוא את הכתובות על פיסות דואר. כדי שהדואר יהיה קריא על ידי סדרן דואר OCR, עם זאת, הכתובות והגופנים צריכים להיות בפורמט מסוים. תוכנת OCR שימושית להמרת תמונות סרוקות של מסמכים מודפסים או בכתב יד לטקסט אלקטרוני הניתן לחיפוש, אך יש לה חסרונות המגבילים את היישומים שלה.

מסמכים מוגבלים

OCR עובד הכי טוב עם מסמכים מוקלדים באיכות טובה. לא ניתן לקרוא בקלות מסמכים בכתב יד באמצעות תוכנת OCR. באופן דומה, גופנים מוקלדים הדומים לכתב יד -- כמו גם גופנים שאינם לטיניים -- יוצרים שגיאות רבות במהלך תהליך ה-OCR. אם למסמך יש ניגודיות גרועה, מקומט או מלוכלך, או שהטקסט והרקע דומים בחושך, ייתכן ש-OCR לא יעבוד טוב. OCR מתקשה במסמכים שיש בהם גם תמונות וגם טקסט. גיליונות אלקטרוניים גם יפיקו יותר שגיאות.

סרטון היום

דיוק

אף תוכנת OCR אינה מדויקת ב-100 אחוז. מספר השגיאות תלוי באיכות ובסוג המסמך, כולל הגופן שבו נעשה שימוש. שגיאות המתרחשות במהלך OCR כוללות קריאה שגויה של אותיות, דילוג על אותיות שאינן קריאות או ערבוב של טקסט מעמודות סמוכות או כתוביות תמונה. אם נדרש דיוק גבוה - כמו בהמרת ספרים דיגיטליים לפורמט אלקטרוני - אז יהיה צורך בניקוי של הטקסט האלקטרוני.

דרכים לעקיפת הבעיה

OCR מתקשה להבדיל בין תווים, כגון המספר אפס ו"O" גדול. כדי לעקוף זאת, ניתן להשתמש בגופן OCR מיוחד, כגון כתיבת אפס. עם זאת, זה עובד רק עבור מסמכים שנוצרו עם מחשבה על OCR, כגון שאלונים. בעת יצירת שאלונים שיהיו בכתב יד, משתמשים החוקרים גם בקופסאות לכל אות.

עבודה נוספת

גם אם התמונה הסרוקה של מסמך המקור היא באיכות גבוהה, יש לבצע שלבים נוספים כדי לנקות את טקסט ה-OCR. זה מאוד אינטנסיבי לתקן את השגיאות שנוצרו על ידי OCR. אדם צריך להשוות ידנית בין המסמך המקורי לבין הטקסט האלקטרוני. אנשים גם עושים שגיאות בעת הקלדת טקסט ממסמך, אבל לפעמים זה מהיר יותר לדלג על שלב ה-OCR.