데이터 기술 전문기업 이파피루스(대표 김정희)는 인공지능(AI) OCR 솔루션인 '텍스트센스(TextSense)'가 지속적인 딥러닝 학습을 통해 인식률과 정확도가 향상됐다고 19일 밝혔다.
업데이트 버전은 텍스트 크기가 제각각인 문서는 물론 문서 방향이 삐뚤어지거나 흔들린 문서에서도 높은 인식 정확도를 확보했다. 또 한글 문서만이 아닌 영어로 작성된 문서에도 한글과 동일한 수준의 텍스트 정확도가 나왔다.
텍스트센스는 자체적으로 개발한 전처리 기술을 사용해 품질이 낮은 이미지에서도 자체 보정 작업을 거쳐 텍스트를 인식한다. 사람이 쓰거나 인쇄된 이미지를 스캔해 문자 데이터로 변환하는 데 그쳤던 기존 OCR 제품과 달리 인공지능이 축적된 데이터를 통해 스스로 학습한다. 이로 인해 쓸수록 텍스트 인식률과 정확도가 향상된다. 나아가 신용카드, 영수증, 증명서 등 특정 유형 문서 양식에 맞게 데이터 추출이 가능하다. '텍스트센스'는 서식 도구 없이도 표와 같은 서식을 자동으로 인식하고 서식에 적힌 순서와 배치에 따라 데이터를 추출한다. 문서에서 사용자가 원하는 정보만 빠르게 읽어내는 '핵심어 검출' 기능도 '텍스트센스'만의 특징이다. 문서 이미지 속 텍스트를 단어 단위로 인식한 다음, 사용자가 사전에 지정한 핵심어의 모양으로 핵심어를 찾아내고 이와 연관된 정보만 우선적으로 찾아준다.
이렇게 인식한 텍스트는 내용에 따라 자동으로 분류 및 저장되어 업무자동화(RPA), 문서 데이터 베이스 구축, 민감정보 보호, 실시간 번역 서비스 등 다양한 업무에 편리하게 활용할 수 있다.
김정희 이파피루스 대표는 “인공지능을 활용해 업무 프로세스 효율을 극대화하고 업계를 선도하고자 하는 고객이 많아지고 있다”며 “독보적인 전자문서 기술에 인공지능을 접목한 텍스트센스는 문서 업무 처리가 많은 다양한 산업 및 공공기관의 업무 자동화를 실현하는 최적의 솔루션이 될 것”이라고 말했다.
윤대원기자 yun1972@etnews.com