ETRI, '엑소브레인' 구어체 분석 기술 개선
기존 모델 대비 오류 40% 줄여 인식 성능↑
AI 비서·챗봇 등 서비스 산업 활성화 기대

우리 연구진이 기존 모델 대비 오류를 40% 개선한 구어체 언어분석 응용프로그램 인터페이스(API)를 공개했다. 국내 인공지능(AI) 비서, 챗봇 등 서비스 산업 활성화에 큰 도움이 될 전망이다.

한국전자통신연구원(ETRI·원장 김명준)은 자체개발 AI 엑소브레인의 구어체 분석기술을 '공공 AI 오픈 API·데이터 서비스포털'에 공개했다고 6일 밝혔다.

Photo Image
엑소브레인 구어체 언어분석표

이는 '형태소분석 기술'과 '개체명 인식 기술'을 담고 있다. 한국정보통신기술협회(TTA) 표준가이드라인을 따르며 형태소 태그는 47개, 개체명 태그는 146개다.

형태소분석 기술은 한국어 의미 최소 단위를 분석하는 기술이다. 개체명 인식 기술은 문장 내 고유 대상과 의미를 인식하는 기술이다. 다양한 언어처리 서비스에 활용도가 높다.

ETRI는 학습데이터 부족 한계를 극복하고 API를 구현했다. 개체명 인식 학습데이터의 경우 문어체는 약 27만건이지만 구어체는 2만5000건 수준에 불과하다. 연구진은 다른 분야 학습 모델을 활용하고, 적은 학습 데이터를 재차 사용하는 전이학습·데이터증강 기법을 활용해 이를 극복했다.

이 결과 ETRI API는 기존 모델 대비 높은 인식 성능을 자랑하게 됐다. 형태소 분석 인식 성능은 5%, 개체명 인식 성능은 7.6% 개선했다. 오류 감소율은 각각 41.74%, 39.38%에 달한다. 특히 형태소 분석은 메캡(Mecab) 오픈소스 라이브러리 대비 10.6% 더 우수하다.

ETRI는 이밖에 성능을 개선한 문어체 언어분석 API도 추가로 공개했다. 형태소분석 인식 정확도는 96.8%, 개체명 인식 정확도는 89.4%다.

Photo Image
엑소브레인 구어체 분석 API를 개발한 연구진이 관련 연구를 진행하는 모습.

임준호 ETRI 언어지능연구실 박사는 “기존 엑소브레인 언어분석 기술이 백과사전 및 법령을 분석하기 위한 목적으로 개발됐음에도 구어체 분야에 많이 적용되고 있었다”며 “이번 구어체 언어분석 API 공개로 국내 AI 시장이 더욱 활성화되길 기대한다”고 밝혔다.


한편 ETRI는 2017년부터 엑소브레인 언어분석 API를 공개하고 있다. 이용실적이 2600만 건에 이른다. 엑소브레인은 한컴오피스 2020에 탑재되는 등 상용화가 진행된 AI다.


대전=김영준기자 kyj85@etnews.com