
인공지능(AI)은 이제 단순히 질문에 답하는 수준을 넘어, 스스로 목표를 이해하고 계획, 실행까지 수행하는 '에이전틱 AI' 시대로 진화하고 있다. 사용자의 지시를 기다리는 것이 아니라, AI가 직접 정보를 탐색하고 판단하며 작업을 이어가는 방식이다.
그동안 컴퓨팅 인프라는 주로 사용자 트래픽 중심으로 설계돼 왔다. 그러나 에이전틱 AI 환경에서는 상황이 달라진다. AI 에이전트는 하나의 결과를 도출하기 위해 수십·수백번의 추론과 검증, 재시도를 반복하며 스스로 새로운 트래픽을 만들어낸다. 단순 질의응답 중심의 기존 AI와는 전혀 다른 수준의 연산 구조와 시스템 효율이 요구되는 것이다.
이 과정에서 병목은 더 이상 GPU에만 국한되지 않는다. 에이전트가 긴 컨텍스트를 유지하고 상태를 저장, 복원하며 복잡한 작업을 지속적으로 수행하기 위해서는 메모리, 스토리지, 실행 환경이 유기적으로 연결돼야 한다. 이제는 개별 칩의 성능보다 전체 시스템을 얼마나 효율적으로 설계하고 운영하느냐가 더욱 중요해지고 있다.
실제로 에이전트가 매 단계 새로 처리하는 토큰은 전체 컨텍스트의 극히 일부에 불과하다. 대화 이력, 도구 호출 결과, 파일 읽기 등 누적된 상태(state)가 매번 모델에 다시 공급돼야 하기 때문에, GPU는 새 토큰을 계산하는 시간보다 거대해진 KV 캐시를 다시 끌어오기를 기다리는 시간이 더 길어진다. 연산 자원이 아무리 빨라져도, 데이터가 도착하지 않으면 GPU는 그저 멈춰 있을 수밖에 없다.
대규모 토큰 배치를 전제로 설계된 기존의 프리필-디코드 분리(Prefill-Decode Disaggregation) 아키텍처 역시, 매 단계 수백 토큰씩만 추가되는 증분 프리필(Incremental Prefill) 환경에서는 본래의 효율을 살리기 어렵다. 차세대 추론 인프라의 진짜 승부처는 '얼마나 빠른 칩을 만드느냐'가 아니라, '얼마나 빠르게 컨텍스트를 흘려보낼 수 있느냐'로 옮겨가고 있다.
이러한 구조 변화는 곧 비용의 문제로도 이어진다. 에이전틱 AI 시대에는 토큰당 비용이 낮아지더라도, 에이전트의 반복 추론과 장기 실행이 늘어나면서 전체 운영 비용(TCO)은 오히려 급격히 증가할 가능성이 크다.
따라서 미래 AI 경쟁력은 단순히 더 빠른 GPU를 확보하는 데 있는 것이 아니라, AI 워크플로 전반을 얼마나 효율적으로 운영할 수 있는지에 달려 있다. 에이전트가 더 오래 사고하고, 더 다양한 경로를 탐색하며, 더 복잡한 과제를 끝까지 수행할 수 있도록 메모리, 스토리지, 실행 환경을 하나의 인프라로 통합, 오케스트레이션하는 역량이 관건이다.
데이터가 흐르는 모든 길과, 그 길을 통제하는 소프트웨어(SW)까지 함께 다시 짜여야 한다. 데이터를 GPU로 빠르고 안전하게 흘려보내는 데이터 처리 가속 기술, 추론 워크로드에 최적화된 서버 설계, 대규모 데이터를 끊김 없이 공급하는 스토리지 시스템, 그리고 이 모든 자원을 묶어 전체 시스템을 관리해야 한다. 요소 기술을 수직 통합(Vertical Integration) 방식으로 함께 설계해, 에이전틱 AI 시대에 최적화된 차세대 AI 인프라를 구현해 나가야 한다.
에이전틱 AI는 단순한 AI 활용 방식의 진화가 아니다. 이는 AI 인프라에 대한 기존의 모든 가정을 다시 쓰게 만드는 거대한 변곡점이다. 앞으로의 경쟁력은 더 빠른 칩 하나가 아니라, AI가 지속적으로 사고하고 실행할 수 있도록 뒷받침하는 더 정교하고 효율적인 인프라 설계에서 결정될 것이다.
김장우 망고부스트 대표 jangwoo.kim@mangoboost.io



















