

AI 업계에서 최적화와 경량화가 빨라지고 있다.
이런 움직임은 저비용 고품질 AI 모델로 파장을 일으킨 중국 AI 스타트업 딥시크가 거대 AI 모델의 최적화와 경량화 부문에서 혁신이 가능하다는 것을 제시한 이후 더 가속화됐다. 스케일업 중심의 거대 모델에 대한 투자만이 아니라 실용성, 효율성에도 눈을 돌리게 한 것이다.
국내 AI업계에선 이러한 '딥시크 쇼크'를 반기고 있다. AI 모델 경량화, 최적화에 초점을 맞춘 전문 기업도 속속 등장하고 있다.
◇빅테크의 거대언어모델에서 경량 언어모델로…활용도 따라 변화
거대언어모델(LLM)은 마치 생성형 AI 생태계를 지배하는 공룡과 같다. LLM은 일반적으로 최소 수십억개에서 수천억 개 파라미터(매개변수)를 가진 모델로 높은 정확도와 범용성을 자랑한다. 오픈AI의 GP-4나 페이스북 모기업 메타의 라마(LLaMA)가 대표적이다.
이러한 LLM은 학습과 추론에 막대한 규모의 그래픽처리장치(GPU)와 전력이 필요하다.
메타의 라마3는 모델 학습에만 1만6000여개의 엔비디아의 최신 GPU H100이 사용된 것으로 알려졌다. 이를 개당 4000만원으로 환산할 경우 한화 6400억원 상당이다. 통합 시스템을 고려할 시에는 1조원에 이른다.
오픈AI를 중심으로 오라클, 소프트뱅크 등 민간 기업이 협력한 '스타게이트 프로젝트'는 초기투자액만 1000억달러(한화 약 140조원)이며, 향후 4년간 최대 5000억달러(약 700조원) 규모로 확장할 계획이다.
일론 머스크가 이끄는 AI스타트업 xAI가 개발한 '그록 3'는 엔비디아의 최신 GPU 20만장을 연결한 세계 최대 AI 슈퍼컴퓨터 '콜로서스'를 통해 사전 학습됐다. xAI는 이를 100만여개로 늘린다는 계획을 발표했다.
이러한 거대모델은 대규모 데이터센터에서만 실행이 가능하며, 활용시 비용과 접근성 등이 문제로 지적되고 있다. 파라미터 값이 클수록 추가 학습과 추론에도 많은 GPU 자원을 추가로 필요로 한다. 단일 추론에도 고성능 서버는 필수적이다. LLM은 크고 강력한 몸집을 자랑하지만 산업 변화에 민첩하지는 않다.
AI를 산업에 적용하기 위해서는 대기업뿐만 아니라 중소기업이나 스타트업에서도 이러한 AI를 활용할 수 있어야 한다. 대기업조차 비용 대비 효율을 고민하며, 실시간 고객 응답이 필요한 서비스업 등에서는 모델 적용이 어려울 수도 있다.
이에 주목받은 것이 경량화 거대언어모델(sLLM)이다. LLM은 일반적으로 학습과 운영에 데이터센터는 물론이고 전력소모도 크다. sLLM은 파라미터 수를 수십억 이하로 줄이고 구조를 최적화해 자원과 메모리 사용량을 줄인 버전이다. 적은 자원으로도 AI 기업에 적용이 용이하도록 했다.
특히 경량 언어모델은 일반서버나 저사양 하드웨어에서도 실행 가능하도록 해 학습이나 유지 비용이 상대적으로 저렴해 중소기업 등에서도 활용할 수 있다.
또 실시간 응답이 필요한 음성비서나 자율주행, 고객지원 챗봇과 같은 애플리케이션에 적용하거나 메모리와 전력 소모가 적어 스마트폰이나 사물인터넷(IoT) 기기, 웨어러블 기기 등 엣지 디바이스에서도 작동할 수 있다.

◇딥시크, 거대 언어모델에서도 가성비 가능…효율성 높이는 기술에 주목
딥시크는 공룡의 몸집을 유지하면서 작고 민첩하게 움직일 수도 있다는 가능성을 제시했다. 딥시크의 파라미터 수는 거대 모델에 해당하지만 최적화된 아키텍처로 최신 AI모델과 비슷한 성능을 낸다는 것이 특징이다. 전문가혼합방식(MoE)를 적용해 특정 작업에만 적합한 신경망 모듈만 활성화, 연산 효율성과 응답 품질 최적화했다.
경량화된 언어모델은 구조가 거대모델에 비해 단순한 만큼 다양하게 활용하기 어렵다는 한계가 있었다. 데이터셋의 크기가 작은 만큼 특정 산업에 치중될 수 있어 '챗GPT'와 같은 범용적 답변이 가능한 챗봇도 만들기 어렵다는 것이다.
딥시크는 고차원의 작업을, 높은 정확도로 빅테크 기업들의 AI 모델과 유사한 성능을 낼 수 있으며, 이를 애플리케이션으로 구현했다.
전문가들은 AI의 미래는 결국 산업 적용에 달렸고, 성능만큼이나 효율성이 좌우한다고 입을 모으고 있다.
딥시크 모델이 경량화의 중요성을 보여줬으며, AI 모델을 더 작게 만들면서도 강력한 성능을 낼 수 있음을 입증했다고 평가했다.
해외에서는 이미 이러한 AI 모델과 배포, 추론에 초점을 맞춘 플랫폼을 제공하는 기업들이 유니콘 기업으로 평가받고 있다. 2020년에 설립된 미국 스타트업 파이어웍스, 투게더AI 등이 대표적이다. 비용 효율성과 속도를 강조하는 것이 특징이다.
국내에서도 자체 기술 개발을 통해 거대 모델 개발의 비효율성을 보완하거나 거대 모델을 최적화해 산업 적용을 용이하도록 하는 다양한 기업들이 주목받고 있다. AI를 만드는 것에서 나아가 AI를 잘 활용할 수 있도록 지원하는 소프트웨어(SW) 전문 기업들이다.
프렌들리AI는 프렌들리는 자체 기술로 AI 모델의 배포와 운영을 보다 쉽게 할 수 있도록 돕는다. 700만명 이상의 사용자를 보유한 AI모델, 데이터셋 플랫폼 허깅페이스와 전략적 파트너십을 체결했다.
노타AI는 온디바이스 AI 솔루션을 전문으로 하는 스타트업이다. AI 모델을 최적화, 경량화해 스마트폰이나 IoT 등 엣지 디바이스에서 실시간 실행이 가능하도록 한다.
래블업은 AI 모델 학습과 배포를 위한 '백엔드에이아이' 플랫폼으로 GPU 활용률을 극대화하는 기업이다. 고가의 GPU 자원을 효율적으로 활용할 수 있도록 돕는다.
모레는 AI 인프라 솔루션 전문 기업인 모레는 AI 모델 개발을 최적화하는 기술을 보유하고 있다. 자체 플랫폼 '모아이(MoAI)'는 GPU 가상화와 병렬 처리 기술로 대규모 AI 모델 학습이 효율적으로 이뤄지도록 하고 있다.
업체 관계자는 “딥시크는 단순히 모델 크기를 키우는 것만이 아니라 다양한 연구개발을 통해 AI 성능을 더욱 향상시키고, 보다 효율적인 학습 방법을 찾을 가능성을 제시했다”고 말했다.


김명희 기자 noprint@etnews.com