[KISTI과학향기]옛 가수들, AI 기술로 부활?

발행일 : 2021-01-25 07:00 업데이트 : 2021-01-22 13:04 지면 : 2021-01-25 17면

최근 세상을 떠난 옛 가수들을 인공지능(AI) 기술로 재현하는 TV 프로그램이 방영돼 화제가 되고 있다. 지난해 12월, 케이블 음악채널 엠넷은 '다시 한 번'이라는 프로그램을 통해 혼성 그룹 거북이의 리더였던 터틀맨과 가수 김현식의 목소리와 모습을 복원해 새로운 곡과 무대를 선보였다. 이미 세상을 떠난 가수들이 살아 돌아온 듯한 착각을 불러일으킬 정도로 목소리와 표정, 몸짓이 생생하게 구현됐다. 이 무대가 가능할 수 있었던 건 바로 AI의 음성합성 기술과 영상합성 기술의 발전 덕분이다.

Photo Image — 터틀맨의 목소리와 모습을 AI로 재현한 모습. (출처 : Mnet official 유튜브 캡처)

◇AI 딥러닝을 이용한 음성 합성 기술의 발전

음성 합성 기술은 말 그대로 인공적으로 사람의 목소리를 만들어내는 기술이다. 사람 목소리를 녹음해 문자로 바꾸는 음성 인식과 반대로 생각하면 된다. 텍스트를 입력하면 사람의 목소리로 출력이 되는 것이다.

이전에는 음성을 합성하려면 많은 단계를 거쳐야 했다. 먼저 만들고자 하는 목소리의 모델을 선정하고 그 목소리를 가진 화자에게 원고를 읽게 해 그의 말을 녹음하게 한다. 그리고 텍스트를 발음기호로 변환한 뒤, 운율, 음향, 음의 길이 정보 등을 추출해 음성을 합성한다. 각 단계마다 발성 기관 구조의 원리와 발음 기호 변환 등의 언어적 지식, 음성학, 음성 신호처리 등의 전문 지식들이 필요했다. 또 40~100시간 이상의 화자의 녹음 데이터가 필요해 품도 많이 들었다.

하지만 지금은 AI 딥러닝 기술 발전으로 빠르게 음성 합성을 할 수 있다. 딥러닝 기술을 이용하면 여러 단계를 거칠 필요 없이 입력 텍스트와 이에 대한 음성 데이터만 있으면 음성 합성이 가능하다. AI가 사람의 목소리를 듣고 스스로 학습해 음성을 발음하는 방법을 터득하는 것이다. 2017년 3월 구글의 딥마인드가 공개한 '타코트론'이 딥러닝 기술을 이용한 음성 합성의 시작이었다.

이 방법은 사람이 말을 배우는 것과 비슷하다. 아기가 옹알이를 하다가 다른 사람들의 목소리를 들으면서 말하는 법을 깨우치는 것처럼, AI도 학습을 통해 주어진 문장을 문맥에 따라 호흡, 높낮이와 강세 등 발음하는 방법을 터득하게 된다. 지금까지 개발된 음성 합성 기술 중 가장 자연스러운 목소리를 만들어 낼 수 있다. 2018년 1월, 구글이 발표한 '타코트론2'의 음성 품질 측정 점수(MOS)는 4.53으로 실제 사람이 녹음한 음성 점수인 4.58과 비슷했다.

AI를 이용하면 원하는 목소리(화자)의 데이터도 많이 필요하지 않다. 이미 축적돼 있는 많은 양의 음성 데이터로 기본 학습을 한 뒤, 몇 시간 정도의 화자 데이터를 새롭게 추가해 적응 훈련을 진행하면 감정과 발화 스타일을 그대로 흉내 낸 화자의 목소리를 만들어 낼 수 있다. 2019년 네이버는 400문장 정도 되는 40분의 음성 데이터만으로도 실제 사람의 음성에 가까운 합성음을 제작하는 기술을 개발했다. 같은 해 엔씨소프트도 김영하 작가가 녹음한 10분 분량의 목소리로 음성 합성을 하는 데 성공했다.

이처럼 AI 음성 합성 기술은 원하는 누군가의 목소리로 짧은 시간에 음성을 합성할 수 있기에 '맞춤형 커스텀 보이스'가 가능하다. 원하는 연예인의 목소리로 책을 읽어주는 서비스, 안내 방송을 할 수 있고, 터틀맨과 김현식의 영상처럼 고인의 목소리를 재현하거나 같은 목소리로 발표된 적 없는 새로운 노래를 부르게 할 수도 있다. 앞으로 음성 합성 기술은 감성과 개성까지 표현하는 방향으로 발전해 다양한 영역에서 활용될 것이다.

◇자연스러운 영상 합성 기술의 비밀, 딥페이크와 GAN

터틀맨의 무대는 목소리를 AI로 구현하는 데서 그치지 않고 생전의 모습까지 재현했다. 이를 위해 제작진은 먼저 실제 터틀맨의 체형과 비슷한 모델을 선정해 동작을 촬영했다. 그리고 터틀맨의 과거 활동사진과 동영상 자료를 AI에 학습시킨 뒤, 최적의 얼굴 데이터를 추출했다. 이 데이터를 모델의 동작과 함께 합성해 자연스러운 모습을 구현했다. 이 기술을 '딥페이크'라고 한다. 인공지능의 '딥러닝'과 가짜라는 뜻의 '페이크'를 합성해 만들어진 용어다. 그리고 딥페이크 기술의 대표적인 알고리즘이 바로 '생성적 적대 신경망(GAN)'이다.

GAN에는 '생성자'와 '판별자'라는 두 개의 알고리즘이 있다. 생성자 알고리즘이 가짜 콘텐츠를 만들어내면, 감별자 알고리즘이 가짜와 진짜를 판별한다. 두 알고리즘이 서로 경쟁하며 차이점을 분석하고 학습해 나가면서 더 정교한 가짜 콘텐츠를 만들어 내는 방식이라 '적대'라는 말이 붙었다. GAN의 창시자 이안 굿펠로우는 GAN을 '위조지폐범'과 '경찰'에 비유했다. 경찰이 진짜 지폐와 위조지폐를 구별해 범인을 잡으면, 위조지폐범은 경찰의 눈을 속이기 위해 더 정교한 위조지폐를 만드는 것과 비슷하다는 뜻이다.

예전에는 영상을 합성하려면 프레임 하나마다 사진 붙여야 했기 때문에 엄청난 시간과 노력이 필요했다. 하지만 GAN을 이용하면 기존 영상에 쉽고 정교하게 다른 인물을 자동으로 합성할 수 있다. 가장 유명한 딥페이크 영상으로 2017년 8월 미국 워싱턴대학교 연구팀이 만든 버락 오바마 전 미국 대통령의 가짜 영상을 들 수 있다.

연구팀은 오바마 전 대통령의 실제 연설에서 음성을 추출하고, GAN을 이용해 이 음성에 맞는 입 모양을 만들어냈다. 2019년 4월 영국의 축구선수 데이비드 베컴의 말라리아 퇴치 공익광고에도 딥페이크 기술이 쓰였다. 베컴은 영어로만 말했지만 딥페이크 기술을 이용해 입 모양을 바꿔 중국어, 아랍어, 힌디어, 스와힐리어 등 9개 언어의 광고를 만들 수 있었다. 딥페이크 기술은 가짜지만 진짜처럼 보이는 콘텐츠를 만들 수 있기 때문에 다양하게 활용될 수 있다.

◇음성 합성과 딥 페이크, 악용되는 대표적인 위험 기술

하지만 AI 기반의 음성 합성과 딥페이크 기술이 긍정적인 면만 있는 것은 아니다. 이들은 악의적으로 사용될 수도 있어 AI의 대표적인 위험기술로 간주되기도 한다. 누군가 자신이나 가족의 목소리를 AI에 학습시켜 보이스 피싱에 동원할 수도 있고, 유명인 얼굴을 사용해 가짜 포르노 합성물이나 가짜 뉴스 등을 감쪽같이 만들어낼 수 있기 때문이다.

GAN은 온라인에 소스코드가 공개돼 있어 누구나 딥페이크 영상물을 제작할 수 있기 때문에 악용되는 사례가 많다. 네덜란드 보안연구 기업인 '딥트레이스'가 2019년 공개한 보고서에 따르면 온라인에 공개된 딥페이크 영상 중 96%가 음란물이라고 한다. 이 음란물 합성 피해자의 25%는 한국 여자 연예인이었다. 최근에는 음란물 합성 대상이 연예인에서 지인(일반인)으로 퍼지며 피해 범위도 확대되고 있다.

딥페이크 악용 사례가 증가하면서 마이크로소프트와 구글, 페이스북을 포함한 여러 기업과 연구소들이 딥페이크 사진이나 영상물의 진위를 탐지하는 기술을 개발하고 있다. 한국에서는 지난해 11월 이흥규 한국과학기술원(KAIST) 전산학부 교수팀이 딥페이크 사진을 탐지하는 소프트웨어 '카이캐치'를 개발했다. 연구팀이 개발한 소프트웨어는 30만장 이상의 이미지 데이터와 영상 데이터 등을 정밀 분석해 잘라 붙이기, 복사 붙이기, 지우기, 리터칭 등의 이미지 변형을 종합적으로 탐지한다.

이처럼 AI를 이용한 음성 합성과 영상 합성 기술은 잠재력과 활용성이 무궁무진한 기술이지만 악용하는 사례 또한 증가하고 있다는 점을 잊어서는 안 된다. 딥페이크 탐지 기술을 개발하는 것도 중요하지만 이런 기술적인 방법은 근본적인 해결책이 되지 못할 가능성이 높다. 관련법과 제도를 마련하는 등의 적극적 대책이 필요한 시점이다.

글: 정시영 과학칼럼니스트