AI가 사람처럼 문서 이해...ETRI, API 2종 개발해 민간 공개

Photo Image
ETRI 연구진이 오피스문서에 활용할 수 있는 API 기술을 설명하고 있다. 왼쪽부터 김민호 책임연구원, 배용진 선임연구원, 임준호 책임연구원, 이형직 책임연구원.

정부출연연구기관(출연연)이 사람처럼 문서를 이해하고 원하는 정보를 찾아주는 인공지능(AI) 기술을 개발, 누구나 쓸 수 있도록 민간에 공개했다. 다양한 분야 업무 생산성을 높이는 데 큰 도움이 될 전망이다.

한국전자통신연구원(ETRI·원장 김명준)은 오피스 문서에서 사용자가 원하는 질문 답을 찾아 알려주고 두 문장 뜻이 같은지 이해하는 API 2종을 개발했다고 7일 밝혔다.

이들은 'ETRI 공공 AI 오픈 API·데이터 서비스 포털'에 공개돼 누구나 쉽게 이용할 수 있다.

이 가운데 행정문서 질의응답(QA) API 기술은 딥러닝 언어모델로 단락과 표를 인식하고 정답과 근거 문장을 인식한다.

예를 들어 '출장 경비가 100만원 들 때, 결재를 어느 선까지 받아야 할까요?'라는 질문을 입력하면 '100만원 이하인 경우, 실장 전결'과 같은 사내 규정 정보 문서, 그 근거 부분까지 찾아 준다.

이를 활용하면 게시물 제목, 파일 이름에 포함된 단어를 검색하고 일일이 문서를 열어 내용을 찾는 수고를 덜 수 있다.

Photo Image
ETRI 연구진이 개발한 행정문서QA API의 기술 별 성능 비교 지표

공동연구기관인 한글과컴퓨터에서 블라인드 평가로 정확도를 측정했는데 단락 대상 검색 상위 5개 결과는 89.65%, 표 대상 검색에서는 81.5%로 높은 정확도를 보였다.

다른 기술은 패러프레이즈 인식 API다. 사람처럼 문서를 보고 형태가 다른 문장이 같은 뜻을 지니는지 파악한다. 다른 한국어 AI 개발에도 쓰일 수 있는 원천 기술이다.

이 API는 '견고성(robustness)' 문제를 해소했다. 견고성 문제는 문장이 조금만 달라져도 딥러닝 기술이 의미 관계를 바르게 인식하지 못하는 문제다.

견고성 평가셋 대상 평가 결과 96.63% 정확도를 보였다. 기존 오픈소스 딥러닝 기술보다 성능을 크게 개선할 수 있었다.

Photo Image
ETRI 연구진이 개발한 패러프레이즈 인식 API와 오픈소스와의 성능 비교 지표

개발 기술은 표준인 XML 기반으로 문서 서식을 처리한다. 현재 한글 문서 대상으로만 서비스를 제공하지만 워드, PDF 등 문서에도 활용 가능하다.

ETRI는 향후 언어 이해와 생성을 동시에 학습한 딥러닝 언어모델을 개발·공개하면서 관련 AI 기술력 고도화, 플랫폼 개발에도 기여한다는 계획이다.

임준호 ETRI 언어지능연구실 연구원은 “이 기술이 한국어 AI 서비스 시장이 활성화돼 외산 AI 솔루션 국내시장 잠식을 막고 국민이 유용한 지식 정보를 쉽고 빠르게 습득할 수 있기를 기대한다”고 말했다.

한편 연구진은 2017년 10월 이후 지금까지 API 총 18건을 공개하고 최근 4년간 기술이전 65건과 사업화 35건을 달성했다. ETRI API는 그간 총 4700만 건이 사용됐으며 2020년 이후, 일 평균 4만5000건 이상 사용됐다. 은행, 보험, 제조, 법률, 공항, 온라인 맞춤형 광고 등 다양한 AI 서비스 분야에 적용돼 대한민국 지능화에 기여하고 있다.

이번 연구는 2013년부터 ETRI가 총괄 및 1세부과제를 맡은 과학기술정보통신부 및 정보통신기획평가원(IITP)의 '혁신성장동력 프로젝트', 엑소브레인 과제 일환으로 이뤄졌다.

대전=김영준기자 kyj85@etnews.com