OCR 소프트웨어는 문서의 이미지를 전자 텍스트로 변환합니다.
미국 우편 서비스는 OCR(광학 문자 인식) 기술을 사용하여 우편물의 주소를 읽습니다. 그러나 OCR 메일 분류기가 메일을 읽을 수 있으려면 주소와 글꼴이 특정 방식으로 포맷되어야 합니다. OCR 소프트웨어는 입력하거나 손으로 쓴 문서의 스캔 이미지를 검색 가능한 전자 텍스트로 변환하는 데 유용하지만 응용 프로그램이 제한되는 단점이 있습니다.
제한된 문서
OCR은 좋은 품질의 타이핑된 문서에서 가장 잘 작동합니다. 손으로 쓴 문서는 OCR 소프트웨어로 쉽게 읽을 수 없습니다. 마찬가지로 손글씨와 유사한 타자 글꼴과 비라틴 글꼴은 OCR 프로세스 중에 많은 오류를 생성합니다. 문서의 대비가 약하거나 구겨지거나 더러워진 경우, 어두운 곳에서 텍스트와 배경이 유사한 경우 OCR이 제대로 작동하지 않을 수 있습니다. OCR은 이미지와 텍스트가 모두 있는 문서에 어려움이 있습니다. 스프레드시트는 또한 더 많은 오류를 생성합니다.
오늘의 비디오
정확성
100% 정확한 OCR 소프트웨어는 없습니다. 오류 수는 사용된 글꼴을 포함하여 문서의 품질과 유형에 따라 다릅니다. OCR 중에 발생하는 오류에는 글자를 잘못 읽거나 읽을 수 없는 글자를 건너뛰거나 인접한 열 또는 이미지 캡션의 텍스트를 함께 섞는 등이 있습니다. 디지털 책을 전자 형식으로 변환하는 것과 같이 높은 정확도가 필요한 경우 전자 텍스트를 정리해야 합니다.
해결 방법
OCR은 숫자 0과 대문자 "O"와 같은 문자를 구별하는 데 어려움이 있습니다. 이 문제를 해결하기 위해 0 쓰기와 같은 특수 OCR 글꼴을 사용할 수 있습니다. 단, 설문지와 같이 OCR을 염두에 두고 작성한 문서에만 적용됩니다. 손으로 쓸 설문지를 만들 때 연구원은 각 편지에 상자도 사용합니다.
추가 근무
원본 문서의 스캔 이미지가 고품질인 경우에도 OCR 텍스트를 정리하려면 추가 단계를 수행해야 합니다. OCR에 의해 생성된 오류를 수정하는 것은 매우 노동 집약적입니다. 사람은 원본 문서와 전자 텍스트를 수동으로 비교해야 합니다. 사람들은 또한 문서에서 텍스트를 입력할 때 오류를 범하지만 때로는 OCR 단계를 건너뛰는 것이 더 빠릅니다.