네이버, 8월 음성합성 기술 상용화...구글보다 빨라

#1 회사원 A씨는 아침마다 네이버 클로바 인공지능(AI) 스피커에 날씨와 뉴스를 물어보는 게 습관이 됐다. 평소 좋아하는 여배우 목소리로 뉴스와 날씨를 알려주기 때문이다. 며칠 있으면 유명 아이돌그룹 멤버 목소리도 추가된다는 소식에 고민에 빠졌다.

#2 B 어린이는 밤마다 아빠가 읽어 주는 동화를 들으면서 잠에 빠져든다. 해외 지사에 파견돼 얼굴은 자주 보지 못하지만 네이버 클로바 AI 스피커에선 늘 아빠 목소리가 흘러나온다. 동화는 물론 모르는 영어 단어나 궁금한 걸 물어봐도 언제나 '아빠'가 답해 준다.

Photo Image

네이버(대표 한성숙) 음성 합성 서비스 상용화가 눈앞으로 다가왔다. 네이버는 이르면 오는 8월 자사 AI 플랫폼 클로바 음성을 유명 연예인 또는 부모 목소리로 바꿀 수 있는 서비스를 시작한다고 밝혔다. 연말 예정인 구글보다 상용화 시기를 앞당긴다.

네이버는 음성 합성에 필요한 시간을 대폭 줄이는 혁신 기술을 확보했다. 2015년 포털 최초로 뉴스 본문 읽어 주기 서비스를 선보인 지 3년 만이다. 네이버 음성 합성 기술은 단순한 낭독체를 시작으로 대화체에 감성을 더하고, 개인화로까지 진화했다. 목소리 데이터만 있으면 클로바 AI 스피커에서 흘러나오는 목소리를 마음대로 바꿀 수 있다. 네이버 음성 합성 기술 품질은 이미 세계 수준을 자랑한다. 일본어 음성합성기 품질 경쟁에서 1위를 차지했다. 구글 어시스턴트보다 앞섰다.

네이버에 따르면 자체 개발한 하이브리드 음성 합성 엔진에 힘입어 서비스 구현에 필요한 음성 데이터를 10분의 1로 줄였다. 적은 음성 데이터만으로 음성 합성이 가능해졌다. 구글 같은 글로벌 기업도 최소 40시간 분량의 데이터를 확보해야 한다. 많게는 100시간이다.

김재민 네이버 음성합성 리더는 “개인화 음성 합성 문제는 음성 녹음 시간으로, 네이버는 4시간이면 충분하다”면서 “딥러닝을 적용해 적은 양의 데이터만으로 학습이 가능하고, 음성 합성 기술인 웨이브넷 보코더를 결합해 음질을 끌어올렸다”고 소개했다.

음성 합성 서비스가 고도화되면 한마디 말로도 개인화가 가능하다. 예를 들어 “안녕하세요”라는 말만 입력해도 내 목소리 특징을 흉내 낼 수 있다. 아빠나 엄마 목소리로 동화책을 읽어 주는 것도 가능해진다.

구글이 개발하고 있는 듀플렉스처럼 AI 스피커가 직접 전화를 걸고 대화하는 서비스는 시간이 걸릴 것으로 전망된다. 한익상 네이버 음성인식 리더는 “구글 듀플렉스 출시 이후 내부에서 기술 개발을 논의했지만 일단은 화자 인식 서비스 안착에 주력할 계획”이라고 말했다.

<표>음성합성기 음질 주관 평가 결과

<자료:네이버, 5점 척도 기준>

네이버, 8월 음성합성 기술 상용화...구글보다 빨라

유창선 성장기업부 기자 yuda@etnews.com


브랜드 뉴스룸