
AI 인프라 혁신 기업 그라디언트(Gradient)가 모델 학습의 패러다임을 바꿀 차세대 분산형 강화학습(RL) 플랫폼 'Echo-2'를 출시하며 본격적인 '피드백 경제'의 시작을 선언했다. 지난 몇 년간 AI 산업은 더 많은 데이터와 고성능 GPU를 투입하면 지능이 선형적으로 발달한다는 '데이터 스케일링 법칙'에 의존해 왔으나, 최근 원시 데이터 확장에 따른 한계 효용이 급격히 낮아지면서 단순히 인터넷의 글자를 읽는 것만으로는 모델의 지능을 유의미하게 높일 수 없는 임계점에 도달했다.
그라디언트는 이러한 데이터 확장의 시대가 저물고, 모델이 스스로 논리를 검증하고 시행착오를 통해 정답을 찾아가는 '추론 확장'의 시대가 도래했다고 진단했다. 실제로 Grok-4 등 최신 모델 학습에서 강화학습(Reinforcement Learning) 연산 비중이 10배 이상 증가하며 사전 학습 예산을 추월하기 시작한 것은 AI가 단순 정보 습득을 넘어 스스로 '생각하는 단계'로 진입했음을 보여주는 증거다.
강화학습은 강력한 성능만큼이나 막대한 시뮬레이션과 연산 비용을 요구한다. 기존 클라우드 환경에서 대형 모델의 포스트 트레이닝을 진행할 경우 비용이 수십만 달러를 상회하여 소수 빅테크 기업만이 이를 감당할 수 있었다. 그라디언트의 Echo-2는 강화학습 연산의 80%를 차지하는 샘플링 과정이 고도의 병렬 처리에 적합하다는 물리적 특성에 착안하여 전 세계 유휴 GPU 자원을 활용하는 분산 컴퓨팅 기술로 이 문제를 해결했다. 그 결과, 기존 상용 클라우드에서 약 4,490달러가 소요되던 30B(300억 개 파라미터)급 모델의 학습 비용을 세션당 약 425달러(약 57만원) 수준으로 10배 이상 절감하는 데 성공했으며, 학습 시간 또한 9.5시간으로 대폭 단축해 전통적인 클라우드 속도를 뛰어넘었다.
기술적으로 Echo-2는 학습자와 행동자를 분리하고, 모델 버전 간의 시차를 엄격하게 관리하여 학습의 안정성을 유지하는 '유계 스테일니스(Bounded Staleness)' 기반 비동기 강화학습 기술을 도입했다. 또한 60GB 이상의 거대 모델 가중치를 수백 개의 노드에 단 몇 분 만에 배포하는 P2P 프로토콜 'Lattica'와 롤아웃·학습·데이터를 독립적으로 관리하는 '3평면(3-Plane) 아키텍처'를 통해 복잡한 설정 없이도 즉시 실행 가능한 환경을 구축했다.
특히 그라디언트가 발표한 최신 논문에 따르면 분산된 RTX 5090 GPU 자원을 활용해 Qwen3-8B 모델을 학습할 경우 중앙 집중식 데이터센터의 A100 인프라를 사용하는 것보다 비용이 36% 더 저렴하면서도 학습의 성능 저하(발산) 없이 안정적인 결과를 도출해낼 수 있음을 입증했다.
이미 Echo-2는 수학 올림피아드 수준의 고난도 추론과 스마트 컨트랙트 보안 감사, 자율형 온체인 에이전트 등 실제 금융적 책임이 따르는 영역에서 성능 검증을 마쳤다. 코딩 어시스턴트 커서가 실시간 피드백을 통해 모델을 진화시키듯, 이제 모든 소프트웨어는 사용자와 상호작용하며 실시간으로 진화하는 '틱톡 모먼트'를 맞이할 전망이다.
그라디언트 관계자는 “이제 지능을 API로 빌려 쓰는 시대는 끝났으며, 기업이 직접 모델 가중치를 소유하고 자신들만의 특화된 지능을 만드는 것이 진정한 비즈니스 경쟁력이 될 것”이라며, “Echo-2는 누구나 경제적 제약 없이 최첨단 추론 모델을 구축하고 소유할 수 있는 기반이 될 것”이라고 밝혔다.
그라디언트는 이번 출시와 함께 분산형 강화학습 서비스 플랫폼 'Logits'의 대기 명단 접수를 시작하며 글로벌 AI 인프라 대중화에 박차를 가할 계획이다.
이원지 기자 news21g@etnews.com


















