업스테이지 다큐멘트 AI(Document AI)는 활용이 어려운 비정형 텍스트 데이터(PDF 줄글, 이미지 내 글자, 자연어 글 등)를 구조화하고, 핵심 내용을 추출해 디지털화하는 솔루션이다. 기업이 비정형 데이터가 사용되는 작업을 자동화하거나 그동안 활용하지 못한 데이터를 디지털화해 가치 있게 사용할 수 있도록 돕는다. 삼성생명·한화생명 등이 청구·심사에 사용되는 의료내역서, 기록 등 형태가 다른 문서의 디지털화와 문서 처리 자동화에 활용하고 있다.
특히 Document AI 내 인공지능 모델들은 모두 신뢰도 측정(Confidence Calibration) 방법을 통해 사람이 인지하는 정확도와 모델이 제공하는 신뢰도 점수(confidence score) 일치하게 제공하도록 개발된다. 이를 통해 안정성 확보 측면에서 AI 시스템 내 모델이 제공하는 신뢰도 점수의 활용이 가능하다.
Document AI의 AI 시스템은 여러 개 AI 모델의 조합으로 구성된다. 최종 결과(문서 내 정보 추출)에 대해 하나의 신뢰도 점수를 제공하며, 이는 여러 개 모델의 신뢰도 점수를 조합, 제공하는 점수다. 이러한 신뢰도 점수는 인공지능 모델의 결과에 대한 신뢰성을 판단할 수 있는 근거 자료로 활용된다. 나아가 개별 모듈의 신뢰도 점수는 역추적이 용이하며, 어디서 오류가 발생했는지 원인 추적이 가능하다. 이를 통해 AI 모델의 투명성과 설명가능성을 확보할 수 있다.
핵심 기능은 문제 내 핵심 정보를 추출해 문서처리 시스템을 자동화하는 것이다. 또 일회적인 데이터 구축 및 라벨링으로 그치지 않고 여러 단계에 걸쳐 데이터 수정, 보완을 진행한다. 강건성 확보 작업을 반복적으로 수행해, 지속적이고 균일한 데이터 품질 관리에 용이하다.
업스테이지 관계자는 “신뢰도 점수를 참조해 모델 취약점을 발굴하고 이를 보완할 수 있는 데이터를 구성한다”며 “이러한 품질 관리 체계는 고품질의 AI 모델 확보를 가능하게 하고 데이터의 특성을 모니터링하고 개선하여 신뢰성을 확보하는 프로세스”라고 말했다.
조재학 기자 2jh@etnews.com