
'서울AI허브' 입주사 비드래프트(대표 김민식)는 3D 물리 기반 AI 월드 모델 'PROMETHEUS(프로메테우스)'를 허깅페이스 Space를 통해 공개했다. 이는 단순히 영상 프레임을 연속 생성하는 기존 방식과 구조적으로 다른 접근이다.
PROMETHEUS의 가장 큰 혁신은 3D 에셋 처리 방식이다. 기존 월드 모델은 사전 학습된 고정 캐릭터만 구동하거나, 에셋마다 수작업 리깅이 필요했다. PROMETHEUS는 GLB 형식의 3D 에셋을 추가 변환 없이 즉시 로드한 뒤, 독자 개발한 boneDir 기반 골격 자동 리타겟팅 기술로 AI 모션 데이터를 에셋 구조에 실시간 적응시킨다.
핵심은 그 이후다. 로드된 캐릭터는 사전 제작된 애니메이션을 재생하는 것이 아니다. AI 두뇌가 씬의 상황을 인식하고 위협을 평가하고, 진행 방향을 스스로 결정해 움직인다. 이는 '프로그래밍된 행동'이 아니라 '판단에 의한 행동'이다. 탱크 모델을 로드하면 포 발사와 이동 AI가 자동 활성화되고 적 NPC는 실시간으로 주인공의 위치를 추적해 전술적으로 움직인다.
기존 영상 생성 AI는 픽셀 패턴의 통계적 다음 상태를 예측한다. 이 방식은 시간이 길어질수록 공간 일관성이 붕괴되고, 로봇이나 자율 에이전트가 직접 활용할 수 있는 '행동 가능한 신호'를 포함하지 않는다.
PROMETHEUS는 출력 형식 자체가 다르다. 22개 관절의 위치, 속도, 회전을 포함한 263차원 피처 벡터를 매 프레임 생성하며, 관절각도, 선형 속도, 이동 방향이 통합 계산된다. 이 신호는 산업용 로봇 암의 서보 모터, 휴머노이드 로봇의 보행 제어기에 별도의 변환 레이어 없이 직접 입력 가능한 포맷이다.
기존 주요 월드 모델들은 A100, H100급 고성능 GPU를 다수 필요로 하거나, 대형 클라우드 인프라에 종속된 형태로만 작동한다. PROMETHEUS는 이 상식을 뒤집는다.
모션 생성 엔진의 경우 VRAM 16GB만 확보되면 NVIDIA T4 Small, RTX 5070 수준의 일반 GPU에서 로컬 독립형으로 완전 구동된다. 기업 내부망이나 인터넷 비연결 환경에서도 외부 클라우드 의존 없이 실시간 운영이 가능하다. 이는 보안이 중요한 국방, 제조, 의료 산업에서 즉시 적용 가능함을 의미한다.
PROMETHEUS의 AI 두뇌 레이어는 특정 LLM에 종속되지 않는 개방형 구조로 설계됐다. API 엔드포인트를 교체하는 것만으로 GPT, Claude, Gemini 등 클라우드 LLM은 물론, Llama, Qwen, EXAONE 등 어떤 오픈소스 LLM이든 두뇌로 연결할 수 있다.
보안 환경에서는 완전 로컬 LLM을 연결해 외부 통신을 완전히 차단한 상태로 운영하는 것도 가능하다. 모션 생성 엔진과 인지 두뇌가 분리된 구조 덕분에, 더 강력한 LLM이 등장할 때마다 두뇌만 교체해 시스템 전체를 즉시 업그레이드할 수 있다.
PROMETHEUS는 ShandaAI 도쿄연구소와 도쿄대가 공동 개발한 오픈소스 FloodDiffusion(Apache 2.0)을 출발점으로 삼았다. 원본은 텍스트에서 관절 좌표를 생성하는 모션 모델로, 언어 처리에 T5 인코더만 사용하며 환경 인식 기능이 전혀 없다.
비드래프트는 이 구조를 전면 재설계했다. T5 인코더를 제거하고 LLM 두뇌를 연결해 씬 컨텍스트를 이해하고 실시간으로 캐릭터의 방향을 직접 제어하는 heading_override 시스템을 새롭게 구현했다. 이는 원본에는 없는 기능이다.
또한 VAE 인코더의 first_chunk 텐서 불안정 문제를 독자 패치해 47FPS 안정 구동을 달성했고, EMA 기반 모션 스무딩을 추가해 자연스러운 동작 품질을 확보했다. NPC가 클라이언트가 아닌 서버에서 직접 자율 판단과 이동을 수행하는 서버사이드 NPC 아키텍처도 독자 구현했다.
개발 과정에서 비드래프트가 확인한 가장 중요한 발견은 LLM 두뇌와 물리 아바타를 직접 연동했을 때 나타나는 창발적 자율 판단이다. 기존 시스템이 명령을 실행하는 수준에 머물렀다면, PROMETHEUS의 아바타는 공포 상황에서 스스로 도망칠 방향을 선택하고 적의 이동 패턴을 파악해 최적 회피 루트를 생성한다.
LLM 두뇌인 Brain이 첫 번째 판단 청크를 생성하는 순간 아바타 신체인 Body가 즉각 반응하는 Brain→Body 루프가 형성되면서 텍스트 에이전트가 갖지 못하는 공간적 자기인식과 실시간 상황 대응 능력이 발현된다.
PROMETHEUS가 생성하는 관절 제어 신호는 자율주행, 산업용 로봇 암, 휴머노이드 보행 패턴에 바로 적용 가능한 포맷이다. 로컬 독립 구동이 가능하고 LLM 교체가 자유로운 구조는 피지컬 AI 도입 장벽을 대폭 낮춘다.
비드래프트는 텍스트 Pre-AGI 평가 벤치마크 'FINAL Bench(Frontier Intelligence Nexus for AGI-Level Verification)'도 운영 중이다. 허깅페이스 전체 데이터셋 글로벌 5위에 오른 이 벤치마크는 텍스트 Pre-AGI와 체화 AI 기준을 동시에 정의하는 이중 평가 체계다.

김민식 비드래프트 대표는 “기존 월드 모델은 대형 클라우드 인프라 없이는 작동하지 않는다. PROMETHEUS는 RTX 5070 수준 GPU 하나로 로컬에서 완전히 돌아가고, LLM은 어떤 것이든 연결된다. 픽셀을 예측하는 AI와 물리 세계를 이해하고 판단하는 AI는 근본적으로 다른 기술이며, 그 차이가 피지컬 AI 실용화의 열쇠다”고 말했다.
이원지 기자 news21g@etnews.com



















