삼성전자, 음성변환 AI 기술력 입증, 국제대회 1위 올라

삼성전자가 음성변환 AI(인공지능) 분야 글로벌 경진대회에서 탑클래스에 올라서며 관련 분야 기술력을 입증했다. 텍스트를 음성으로 변환하는 TTS의 명확성과 유사성 부분의 높은 점수를 받아 스마트폰, TV 등 디바이스 AI와의 대화형 소통 기능이 보다 자연스러워질 것으로 기대된다.

삼성전자는 선행 연구개발(R&D) 조직인 삼성리서치 산하 북경연구소 언어지능팀과 MX부문 AI팀이 협업해 AI 식별기술 국제대회인 '2023 블리자드챌린지'에 참가해 명확성 부문에서 1위, 유사성 부문에서 3위를 기록했다고 1일 밝혔다.

Photo Image
2023 블리자드챌린지에 참가한 삼성리서치 북경연구소 언어지능팀과 MX AI팀

블리자드챌린지는 AI관련 식별기술 수준을 평가하는 글로벌 대회다. 컴퓨터 아키텍처 분야 3대 학회인 ISCA산하 그룹인 SynSIG이 2005년부터 진행하는 대회로 음성 합성 분야에서는 가장 크고 중요한 대회로 여겨진다. 올해 대회에서는 20여개 이상의 팀이 참가했고 삼성전자에서는 북경연구소 언어지능팀과 MX AI팀이 함께 참여했다.

TTS는 텍스트를 오디오로 변환하는 인공 지능(AI)의 하위 분야다. 텍스트를 음성으로 변환하기 까지 음향학, 언어학, 디지털 신호 처리 및 컴퓨팅 기술 등이 동원된다. 삼성전자는 10년 넘게 TTS 분야를 연구해 왔으며, 이노틱스 등 관련 기술을 보유한 글로벌 기업들을 인수하기도 했다. 지금은 36개 언어에 대한 온디바이스 TTS 애플리케이션을 개발한 상태다.

삼성전자는 이번 블리자드챌린지에서 텍스트 변환의 정확도와 보다 사람 음성에 가까운 소리를 구현하는데 집중했다. 이를 위해 두 팀은 약 2개월간 협업을 진행했고, 과제 수행을 위해 50시간 분량의 음성 데이터를 통해 오디오북 읽기 기능을 갖춘 프랑스어 TTS 시스템과 두시간 분량의 음성 데이터로 특정 화자의 TTS를 개발했다.

채점 기준은 △음성으로 변환된 오디오 파일의 명확성 △음성 데이터 화자와의 발음 유사성 △오디오 품질 3분야 였다. 삼성전자 팀은 일반 텍스트와 동형이의어 저리 등 명확성에서 1위를 차지했다. 화자의 목소리와 발음 유사성에서는 3위를 차지했다.

삼성리서치측은 “이번 결과를 통해 적은 양의 데이터로도 높은 명확성과 개인화된 TTS 모델을 생성할 수 있는 것은 물론, 새로운 언어로 빠르게 확장할 수 있는 기술력을 증명했다”라고 밝혔다.


조정형 기자 jenie@etnews.com


브랜드 뉴스룸