KAIST, 일반 영상 단 하나로 '1인칭' 영상 만드는 AI 개발...AR·VR 등 활용 기대

실제 등장인물의 눈으로 영화 속 세상을 경험하도록 하는 영상 기술이 현실이 되고 있다.

한국과학기술원(KAIST·총장 이광형)은 일반 영상만으로도 영상 속 인물의 1인칭 시점 영상을 생성하는 새로운 인공지능(AI) 모델을 개발했다고 23일 밝혔다.

Photo Image
3인칭 시점 영상을 1인칭 시점 영상으로 변환한 예시

주재걸 김재철AI대학원 석좌교수팀이 이와 같은 '에고엑스(EgoX)'를 개발했다.

이번 기술은 인물 위치와 자세, 주변 공간 3차원(3D) 구조를 종합 이해한 뒤, 이를 기반으로 1인칭 시점 영상을 재구성한다.

기존 기술은 정지 이미지만 변환하거나 4대 이상 카메라 영상이 필요한 경우가 많았다. 또 빛 방향이나 움직임이 복잡한 동영상에서는 화면이 어색해지는 문제가 있었다.

반면 EgoX는 단 하나 3인칭 시점 영상만으로도 고품질 1인칭 영상을 생성할 수 있다. 인물 머리 움직임과 실제 시야 사이 상관관계를 정밀하게 모델링해, 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 구현했다.

Photo Image
3인칭 시점을 1인칭으로 변환하는 EgoX기술 개요를 AI로 생성한 이미지.

AR·VR(증강현실·가상현실) 및 메타버스 분야에서 일반 영상을 사용자가 직접 체험하는 듯한 몰입형 콘텐츠로 전환해 사용자 경험을 극대화할 수 있다.

또 로봇이 사람 행동을 보고 학습하는 모방 학습 핵심 데이터로 활용될 수 있다. 로봇과 AI 학습 분야에도 기여할 것으로 전망된다. 스포츠 중계나 브이로그를 선수나 주인공 시점으로 전환하는 등 새로운 형태의 영상 서비스도 가능해질 것으로 기대된다.

주재걸 교수는 “이번 연구는 단순 영상 변환 기술을 넘어, AI가 사람의 '시야' '공간 이해'를 학습해 재구성했다는 점에서 의미가 크다”며 “KAIST는 생성형 AI 기반 비디오 기술 분야에서 세계적 경쟁력을 확보해 나갈 것”이라고 말했다.

Photo Image
사진 왼쪽부터 KAIST 강태웅 박사과정, 형준하 박사과정, 주재걸 교수, 박민호 박사과정. 우상단 네모 왼쪽부터 KAIST 김기남 박사과정, 서울대 김도현 학부연구생.

이번 연구는 강태웅·김기남 KAIST 박사과정, 김도현 서울대 학부연구생이 제 1저자로 참여했다. 논문은 지난해 12월 9일 arXiv에 선공개돼 미국 엔비디아·메타 등 빅테크들을 비롯한 AI 산업·학계의 주목을 받았다. 오는 6월 3일 미국 콜로라도에서 열리는 국제 학술대회 CVPR에서 공식 발표될 예정이다.


김영준 기자 kyj85@etnews.com

브랜드 뉴스룸