대규모언어모델(LLM)의 추론 비용이 향후 급격히 낮아질 것이라는 전망이 나왔다. 다만 인공지능(AI) 고도화에 따라 토큰 수요가 급증하면서 전체 추론 비용은 오히려 증가할 수 있다는 분석이다.
가트너는 “2030년까지 1조 파라미터 규모의 LLM의 추론 비용이 2025년 대비 90% 이상 하락할 것”이라고 30일 전망했다.
생성형 AI 모델이 처리하는 토큰 단가가 떨어질 것이란 분석이다. 토큰은 생성형 AI 모델이 처리하는 기본 데이터 단위다. 가트너는 이번 분석에서 토큰을 약 3.5바이트(약 4자)에 해당하는 데이터로 정의했다.
가격 하락의 주요 동인은 반도체와 하드웨어 인프라의 효율성 향상, AI 모델 설계 혁신, 칩 활용률 극대화, 신경망처리장치(NPU) 등 추론 전용 반도체 확산, 엣지 디바이스 활용 등 복합적 기술 혁신이 작용한 결과로 분석했다.
이러한 흐름에 따라 가트너는 2030년 LLM이 2022년 초기 동일 규모 모델 대비 최대 100배까지 비용 효율성이 개선될 것으로 내다봤다.

다만 가트너는 토큰 가격 하락이 곧바로 기업의 AI 비용 절감으로 이어지지는 않을 것이라고 내다봤다. 고도화된 AI 기능은 더 많은 토큰을 요구하는 구조적 특성 때문이다.
예를 들어 스스로 과업을 수행하는 AI 에이전트는 기존 챗봇 대비 작업당 5배에서 30배 더 많은 토큰을 필요로 하고 수행 가능한 작업 범위도 훨씬 넓다.
이에 따라 토큰 단가는 하락하더라도 토큰 사용량 증가 속도가 더 빠르기 때문에 전체 추론 비용은 오히려 증가할 것이란 예측이다.
가트너는 미래 AI 경쟁력이 워크로드를 효율적으로 오케스트레이션할 수 있는 역량에 달려 있다고 분석했다. 반복적이고 빈도가 높은 업무는 보다 저렴한 소형언어모델(sLLM)이나 도메인 특화 모델로 처리하고, 고비용의 프론티어급 모델은 수익성이 높은 복잡한 추론 작업에만 선택적으로 활용해야 한다는 설명이다.
윌 소머 가트너 시니어 디렉터 애널리스트는 “기업의 최고제품책임자(CPO)들은 범용 토큰 가격 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다”며 “기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만 고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 부족하며, 현재 저렴한 토큰 비용으로 아키텍처 비효율을 가리려는 기업은 향후 에이전트 기반 AI 확장 단계에서 한계에 직면하게 될 것”이라고 강조했다.
정현정 기자 iam@etnews.com



















