“인공지능(AI) 음성 합성 기술의 비약적 발전으로 실종 직전 목소리 약간만으로도 시간이 흐른 뒤 목소리를 구현할 수 있게 됐습니다.”
실종 어린이 프로젝트에 참여하는 장준혁 한양대 융합전자공학부 교수(산업기술거점센터장)는 “생후 26개월 때 잃어버린 아이 목소리를 AI와 빅데이터 기술로 21살 성인이 됐을 때의 목소리로 추정할 수 있다”며 이같이 말했다.
장 교수는 AI음성 합성 기술이 빠르게 발전하며 곧바로 적용될 분야로 온라인동영상서비스(OTT)를 손꼽았다.
장 교수는 “넷플릭스 '오징어 게임'에서 배우 이정재가 한국말을 하고, 각 나라에서 자막을 입히거나 더빙을 하고 있다”며 “가까운 시일 내에 실제 배우 목소리로 자연스럽게 영어 대사를 하는 것도 구현할 수 있다”고 설명했다.
장 교수가 이끄는 한양대 산업기술거점센터는 음성 AI를 기반으로 산업 지능화에 앞장서고 있다. 오디오북 업체 윌라와 문장 분위기에 따라 다양한 감정으로 책을 읽는 기술과 함께, 개인의 음성을 짧은 시간 내 학습시켜 엄마나 아빠 등 개인화된 음성으로 책을 읽는 기술 등을 개발 중이다. 윌라가 보유한 낭독 관련 대량의 성우 음성 데이터가 기반이 됐다.
센터는 윌라 이외에도 삼성리서치, 삼성전자 MX사업부, 현대자동차, 이엠텍, 카카오엔터프라이즈 등과 긴밀한 산학협력 연구개발(R&D)을 하고 있다. 또, KT AI 원팀 연구 활동을 통해 E2E(End-to-End·전 구간) 음성 인식 트랜스퍼 러닝 기술을 개발했다.
한양대는 음향기기 전문업체 이엠텍과는 딥러닝 기반 소음 제거 기술을 연구·이전했다. 이엠텍은 한양대로부터 이전받은 기술을 활용한 제품을 개발 중이다. 이는 애플 '에어팟'에 적용된 액티브노이즈캔슬링 기능을 능가하는 기술로 기대되고 있다.
향후 메타버스 공간에서 원하는 목소리나 음악만 선택적으로 들을 수 있을 것이라고 전망했다. 장 교수는 “지금은 모바일 메신저에서 문자로 대화를 하지만, 메타버스 플랫폼이 대중화되면 음성 AI 기술의 새로운 장이 펼쳐질 것”이라고 말했다.
장 교수 연구팀은 9월 인천에서 열리는 음성 AI 학술대회 '인터스피치(INTERSPEECH) 2022'에 총 10편의 논문을 게재했다. 딥러닝 기반 음성인식, 음성합성, 잡음처리, 화자인식 등 음성 AI 주요 분야에서 골고루 채택됐다.
인터스피치는 국제스피치통신협회에서 주최하는 학술대회로, 음성 AI 분야에서 전기전자학회 표준협회(IEEE) 주관 국제음성신호처리학회(ICASSP)와 양대 산맥으로 인정받고 있다. 이 중 4개 논문이 기업과 협력을 통해 만들어졌다.
장 교수는 “국내 대학 논문 게재 실적 중에 역대 최대”라며 “산업체가 필요로 하는 기술을 제공하고 고급인재를 양성하고, 산업체가 대학을 지원하는 선순환 구조가 만들어지고 있다”고 말했다.
김명희기자 noprint@etnews.com