한국말 척척 알아듣는 인공지능 쏟아진다

한국말을 잘 알아듣는 인공지능(AI)이 탄생한다.

한국전자통신연구원(ETRI)은 최근 한국어 언어모델 '코버트(KorBERT)'를 공개했다. 코버트는 AI 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발을 지원한다.

공개한 모델은 두 종류다. 하나는 구글의 언어표현 방식에 더 많은 한국어 데이터를 추가해 만든 언어모델이고, 다른 하나는 한국어의 '교착어' 특성까지 반영해 만든 언어모델이다.

Photo Image

그동안 언어 활용 서비스는 구글의 다국어 언어모델 '버트(BERT)'를 주로 이용했다. 언어처리를 위한 딥러닝 기술을 개발하려면 어절을 숫자로 표현해야 하는데 버트가 이를 수행해준다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 구글의 한국어 언어모델은 40만 건 위키백과 데이터를 활용한 것으로 알려졌다.

코버트는 여기에다 지난 10년 간의 신문기사와 백과사전 정보를 추가했다. 총 23GB 분량 데이터의 45억개 형태소를 학습시켰다.

Photo Image

언어모델이 정교해지려면 한국어 특성에 맞는 훈련 방법이 필요하다.

한국어는 교착어 특성이 있다. 교착어란 실질적 의미를 가진 어간에 문법적 기능을 가진 조사나 접사 등이 결합한 것을 말한다. '의미+문법'의 언어 형태다. 단어 형태가 변하지 않는 고립어(중국어)나 단어 형태의 변화로 문장에 문법적 의미를 부여하는 굴절어(영어)와는 전혀 다른 성질이다.

연구진은 한국어 의미의 최소 단위인 형태소까지 고려한 언어모델 구축에 심혈을 기울였다. 그 결과 코버트는 5가지 기준에서 구글의 한국어 모델보다 성능이 평균 4.5% 우수하다고 평가됐다. 단락 순위화(Passage Ranking) 기준은 구글 모델보다 7.4% 높다.

한계도 있다. 구글과 연구진이 언어모델 개발에 활용한 버트는 512여 개가 넘는 단어가 들어간 문서를 한꺼번에 처리하지 못한다. 대량의 언어 처리가 안 되는 것이다. 연구진은 방대한 언어 데이터를 한 번에 처리할 수 있는 모델을 추가 개발할 계획이다.


권선아기자 sunak@etnews.com


브랜드 뉴스룸