다음, 음성 합성 엔진 ‘뉴톤 톡’ API 무료 공개

다음커뮤니케이션(대표 최세훈)이 국내 최초로 음성 합성 API를 공개했다. 자체 개발한 음성 합성 엔진 ‘뉴톤 톡(Newtone Talk)’은 입력된 글자를 사람처럼 자연스럽게 읽어 주는 것이 특징이다. 지난 2월 공개한 음성 인식 엔진 ‘뉴톤(NewTone)’의 API에 음성 합성 기능을 더했다.

Photo Image

뉴톤 톡은 2012년 말 다음이 인수한 음성 인식 전문기업 ‘다이알로이드’의 기술을 바탕으로 제작됐다. 음성 합성이란 글자를 입력했을 때 이를 소리로 변환해 들려주는 기술이다. 운율, 높낮이 등 사람의 발성을 그대로 재현해내는지가 관건이다. 다음은 한국어 운율 모델을 자체 개발했다. 기존 음성 합성 기술은 대부분 사람이 들어보고 운율과 발성상태를 표기한 후 이를 기반으로 학습하는 형태지만 다음은 모든 과정을 자동으로 처리했다.

다음 검색으로 축적된 데이터를 활용해 가수 ‘2NE1’, ‘B1A4’의 이름과 같이 사전에 등록되지 않은 신조어도 ‘투애니원’ ‘비원에이포’로 정확히 읽고, ‘ㅋㅋㅋ’은 ‘크크크’로, ‘You&I’와 같이 특수문자가 포함된 경우에는 ‘유앤아이’로 읽는다.

뉴톤 톡은 한 번에 최대 30초의 음성을 합성할 수 있다. 입력된 글자를 분석해 음성으로 합성하기까지 0.1초면 된다. 문장을 입력하고 합성 요청을 하면 즉시 들을 수 있다. 뉴톤 톡에는 현재 남성과 여성 각 하나씩의 낭독 음색이 탑재돼 있다. 대화체나 밝은 낭독체 등 4개의 음색도 연내 추가될 예정이다.

뉴톤 톡의 활용 범위는 넓다. 예를 들어 현재 ‘100미터 앞에서 우회전입니다’라는 형태로 음성 안내하는 내비게이션 앱을 ‘100미터 앞에서 다음커뮤니케이션 본사를 끼고 우회전입니다’ 수준까지 바꿀 수 있다. 뉴스나 문자, 책 구절 등을 읽어주거나 각종 안내 방송을 대신할 수 있다. 시각 장애인을 위한 생활형 앱 등을 개발할 때도 유용하다.

이상호 다음 검색부문 부사장은 “개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했다”며 “장기적으로 음성 기술 영역 전반의 발전을 이끌 것이라 기대한다”고 밝혔다.

뉴톤과 뉴톤 톡은 안드로이드와 아이폰 모두를 지원한다. 다음 개발자 네트워크에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다. 이미 뉴톤 API를 발급 받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있다.


박소라기자 srpark@etnews.com

브랜드 뉴스룸