
인공지능(AI) 기반 오디오 솔루션 스타트업 언에이아이가 시청자 참여형 AI 더빙 플랫폼 '보이스 온(VOIX ON)'을 올해 하반기 베타 버전으로 선보인다.
언에이아이는 2024년 설립된 AI 오디오 전문 스타트업이다. AI 기반 음성 합성, 자막·음성 싱크 정렬, 방송급 음질 후처리까지 구현하는 독자 기술을 바탕으로, 누구나 언어 장벽 없이 콘텐츠를 소비할 수 있는 생태계 조성을 목표로 한다.
주요 기술로는 △다국어 STT(Speech-to-Text) 및 TTS(Text-to-Speech) 엔진 △음색·감정 조절 기반 음성 합성 △정밀한 오디오·자막 싱크 기술 △방송국 기준 오디오 후처리 기능 등이 있다. 영상·음성 콘텐츠의 언어 변환과 현지화를 자동화하는 기술을 주로 개발해왔다.
언에이아이는 단순한 AI 모델 사용이 아니라 실제 방송·영상 콘텐츠에 바로 적용 가능한 고품질 오디오 콘텐츠를 기술 방향으로 설정했다. 'Whisper', 'Coqui XTTS-V2' 등 오픈소스를 기반으로 고도화된 모델을 다듬어 자체 TTS 엔진과 결합하고 있다.
현재 기업형(B2B) 모델인 '보이스 엔터프라이즈'는 KT ENA 등 방송과 라쿠텐 비키, 트레져헌터, 유튜브 채널 '총몇명'과 '숏플레이' 등 다양한 채널에서 다국어 더빙 서비스로 적용 중이다. 고객사 요구에 따라 방송 규격 수준의 음질을 합리적 가격에 빠르게 제공하는 것이 특징이다.
연말 베타 출시 예정인 '보이스 온'은 일반 시청자와 편집자가 자발적으로 참여하는 AI 더빙 플랫폼으로 선보일 예정이다. AI가 생성한 1차 음성을 원어민 수준의 더빙 편집자가 검수한 뒤, 웹 기반 플랫폼에서 영상의 대체 오디오로 활용할 수 있도록 제공된다. 시청자 참여 기반 리워드 시스템을 활용하는 구조다.
〈인터뷰〉김영 언에이아이 대표, “AI 오디오 기술로 언어·문화 장벽 허문다”

“누구나 언어 걱정 없이 콘텐츠를 즐길 수 있는 세상을 만드는 것이 저희의 출발점이자 목표입니다.”
김영 언에이아이 대표는 개발자·오디오 엔지니어·연주자·교육자로서의 다양한 경험을 통합해 기술 기반 창업을 결심했다. 박사과정 시절 차량 인포테인먼트 프로젝트에 참여하며 AI 오디오의 실효성과 시장 가능성을 검증한 경험도 사업 기반이 됐다.
김 대표는 캐나다 출신 배우자와 함께 드라마나 영화 등을 감상하며 일상에서 언어 장벽에 대한 문제의식을 체감했다. 그는 “언어 장벽은 결국 문화 장벽”이라며 “진짜 이해는 단어가 아니라 맥락에서 나온다”고 말했다.
김 대표는 “AI 오디오는 단순히 기계적 음성을 자동화해 처리하는 것이 아니라 사람의 감정과 문맥을 구현해야 한다”며 그게 언에이아이가 집중하는 방향이라고 설명했다.
언에이아이의 기술 내재화의 바탕에는 오디오 중심의 전문 조직 구조가 있다. 구성원 상당수가 보컬·레코딩 전문가 또는 음향공학 전공자다. 오디오 데이터를 수집하고 라벨링하는 데 직접 참여하며, 실제 콘텐츠 맥락에 맞춘 사용자 경험 기반의 튜닝 피드백을 기술 고도화에 반영한다.
김 대표는 “보이스 온은 궁극적으로 콘텐츠가 더 멀리, 더 깊이 소비되는 길을 만드는 시도”라고 강조했다.
김명희 기자 noprint@etnews.com


















