일반인 중 '네이버 목소리 뽑는다'...음성합성 개인·대중화 '성큼'

네이버가 자사 인공지능(AI) 음성합성 서비스에 일반인 목소리를 싣는다. AI 기술에 대한 대중 인식을 높이는 동시에 다양한 음성 데이터 확보 효과가 예상된다. 부모 목소리를 합성해 동화책을 읽어 주거나 문자를 전송한 사람 목소리로 내용을 읽는 개인화 서비스에 한 걸음 더 다가섰다.

13일 네이버에 따르면 이 회사는 이달 '네이버의 목소리를 찾아라' 프로모션을 시작한다. 6월 10일까지 일반인 음성을 공모한다. 참여를 원하는 이들은 별도 페이지를 통해 신청하면 전화로 자신의 음성을 네이버에 제출할 수 있다.

네이버는 1차로 남녀 10명씩 20명을 선발해 스튜디오 녹음을 진행한다. 최종 남녀 1명씩 우승자를 뽑는 오디션 방식이다. 선발한 최종 1인의 목소리는 네이버 클라우드 플랫폼 음성합성 서비스에 사용된다. 네이버는 지난해부터 배우 유인나의 목소리를 합성한 음성을 AI 스피커에서 제공하고 있다.

네이버는 이번 프로모션으로 다양한 음성 데이터를 수집하는 효과도 거둘 것으로 예상된다. 네이버는 응모 단계에서 이용자 동의를 받아 개인 음성을 AI 기술 개발과 공개용 학습 데이터로 사용한다고 밝혔다.

네이버는 응모자에게 약 10개의 문장을 제시한다. 응모자별로 주제를 통일했다. 응모자는 “창가 쪽으로 예약 가능한가요?” “창가 자리 예약되나요?” “새로 나온 메뉴 행사 있나요?” “할로윈에 행사 같은 게 있나요?” 등 주제에 맞는 세부 문장 10개를 읽어야 한다. 예약, 주문 등 일상생활에서 쓰임새가 많은 상황부터 데이터를 확보할 것으로 보인다.

업계 관계자는 “톤과 발음이 다양한 음성 데이터를 확보, 기술을 발전시킬 수 있다”면서 “가정에서 짧은 녹음만으로 본인 목소리를 합성하는 등 기술과 서비스 완성도가 높아질 것”이라고 기대감을 표했다.

음성합성은 실제 사람 목소리를 활용해 인공음성을 만들어 내는 기술이다. 주어진 데이터로 매끄러운 문장으로 다듬고, 톤과 악센트를 조정해서 자연스러운 발음을 만드는 것이 핵심 역량이다.

네이버 음성합성 기술은 이미 세계 최고 수준이다. 소량의 데이터로 일상 회화가 가능한 음성합성 결과물을 뽑아내는 것이 강점이다.

네이버는 지난해 4시간 녹음으로 배우 유인나의 목소리를 합성해서 제공하는 기술을 선보였다. 당시 비슷한 결과물을 내놓은 구글 음성 합성 기술이 40시간 녹음이 필요로 하던 것을 10분의 1 단축시킨 것으로 평가받았다.

네이버는 올해 이를 더 단축해서 500개 문장을 단 40분에 녹음하는 것만으로 이질감 없는 음성합성 결과물을 제공하는 성과를 발표했다.

네이버는 지난해 홍콩과기대와 AI 연구소를 공동 설립하는 등 이 분야 투자에 박차를 가하고 있다.

Photo Image
배우 유인나씨가 네이버 인공지능 플랫폼 클로바에 쓰일 음성을 녹음하고 있다. 사진=네이버

김시소 게임/인터넷 전문기자 siso@etnews.com