[주니어전자]SKT, 초거대 AI 모델 'A.X K1' 공개

Photo Image
독자 AI 파운데이션 모델 프로젝트 1차 발표회에 전시된 SK텔레콤 부스

SK텔레콤이 매개변수 519B(5190억개) 규모 초거대 AI 모델 'A.X K1(에이닷엑스 케이원)'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했습니다.

SKT는 1000개의 GPU 자원을 활용해 A.X K1 학습을 진행했는데요. 학습 기간과 GPU 규모를 고려해 가능한 총 학습량을 추산하고, 이를 바탕으로 스케일링 이론을 근거로 최대 모델 크기를 설계했습니다. 그 결과 독창적 매개변수 구조인 519B 규모의 모델을 목표로 정했고, 약 10조 개의 데이터를 투입해 학습을 진행했습니다.

또한 개발기간 동안 상시 1000개 이상의 GPU를 인공지능 훈련에 활용했어요. 투여된 GPU 자원 대비 효과를 극대화하기 위해 최적의 학습 연산량을 수학적으로 설계하고 관리했습니다. 특히 A.X K1은 이번 개발기간 동안 정부 지원을 받지 않고 자체 GPU 조달만으로 목표를 달성했다는 점에서 더욱 의미가 깊어요.

모델 학습에는 웹 데이터, 이공계 데이터(STEM), 추론 데이터, 코드 등 다양한 고품질 데이터를 활용했습니다. 한국어 특화 PDF 문서를 파싱(Parsing)하고 합성 데이터를 생성했으며, 난이도별 커리큘럼 학습 방식도 적용했어요.

A.X K1은 수학과 코딩 등 초거대 AI 모델의 능력을 필요로 하는 분야에서 우수한 성능을 구현했습니다. 이번 보고서에 기술된 벤치마크 지표는 매개변수 6,850억 개(685B)의 '딥시크-V3.1', 매개변수 3,570억 개(357B)의 'GLM-4.6' 오픈소스 모델과 비교해 모델 규모 대비 성능을 평가할 수 있도록 구성됐습니다.

수학은 AIME25 벤치마크에서 89.8점을 받아 딥시크-V3.1 모델(88.4점) 대비 102% 수준으로 앞선 성능을 확인했습니다. AIME25는 미국 고등학생 수학 올림피아드 문제로 AI의 수학 실력을 측정하는 벤치마크로, 창의적이고 복잡한 난이도의 문제를 출제합니다.

코딩 활용도 측면에서 측정한 LiveCodeBench는 영어 기반 75.8점, 한국어 기반 73.1점을 기록하며 실시간 코딩 문제 해결 능력을 입증했어요. 영어 기반 69.5점, 한국어 기반 66.2점을 받은 딥시크-V3.1 대비 각각 109%, 110% 수준의 높은 성능을 보였습니다.

A.X K1은 519B 규모의 파라미터 가운데 33B만 선택적으로 활성화하는 방식으로 효율성을 높였습니다. 전문가 혼합(MoE) 구조를 채택해 AI 훈련 과정의 안정성과 효율을 동시에 확보한 것이 특징이에요.

MoE는 여러 개의 작은 전문가 모델들이 모여 하나의 문제를 해결하는 방식입니다. 각 전문가 모델은 특정 유형의 데이터 처리에 특화되어 있고, 입력 데이터에 따라 가장 적합한 모델이 선택되어 문제를 해결합니다.

A.X K1은 향후 추가 연구 기간에 따라 더 많은 컴퓨팅 자원과 데이터를 투입해 성능을 더욱 높일 수 있는 모델이에요. SKT는 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획입니다.


최성훈 기자 csh87@etnews.com

브랜드 뉴스룸