이파피루스 “단어를 넘어 '문맥'이해하는 인공지능 OCR”
스마트워크 전문기업 이파피루스(대표 김정희)가 인공지능(AI) 광학 문자 인식(OCR) 솔루션 '텍스트센스(TextSense)'를 통해 스마트워크 시장 지배력 확대에 나섰다.
텍스트센스는 텍스트를 문장 단위로 인식하는 AI 솔루션이다. 문서 이미지에 포함된 텍스트를 단어나 개별 글자 단위가 아닌 행 단위로 인식한다. 문장 데이터를 학습하는 과정에서 자연스럽게 익힌 문맥 파악 능력을 바탕으로 흐릿한 글자도 맥락상 자연스러운 글자로 읽어낸다. 텍스트 센스는 '문장 단위 데이터' 학습에 최적화된 AI를 탑재했다. 여타 AI OCR 제품은 '단어 단위 데이터' 학습 AI를 탑재했다.
회사가 여러 문서 이미지로 진행한 성능을 검증한 결과에 따르면 텍스트센스는 평균 95.7%의 인식 정확도를 기록했다. 저품질 문서 실험에서도 스캔본이나 사진, 팩스와 같은 깨끗한 문서 이미지와 비슷한 수준으로 텍스트를 정확하게 인식했다. 같은 실험에서 여타 OCR 제품은 얼룩이 있거나 해상도가 낮은 문서, 인쇄 불량으로 노이즈가 많거나 잉크가 흐릿하게 찍힌 문서에서는 텍스트 인식률·정확도 등이 떨어졌다.
제품은 영어를 기반으로 한 외산 제품 대비 한글 인식률이 우수하다. 대량 문서 작업도 분산해서 빠르고 안정적으로 처리한다. 정형화된 문서와 여러 레이아웃 서식을 인식하고, 정보를 추출한다. 전자문서화와 로보틱 프로세스 자동화(RPA), 문서 자동 분류와 데이터 검증 등에 최적화됐다.
김정희 대표는 “깨끗하게 스캔 된 문서를 텍스트 데이터로 변환하는 것은 기존 OCR로도 얼마든지 가능하지만, 문서 이미지 품질이 낮아지면 인식률이 현저하게 떨어진다”며 “텍스트센스는 자체 개발한 이미지 보정 기술에 문맥을 파악할 수 있는 AI를 더해 정확도를 높였다”고 말했다. 이어 “단어를 넘어 문맥을 이해하는 OCR로 스마트워크 시장 공략에 박차를 가할 것”이라고 덧붙였다.
임중권기자 lim9181@etnews.com