앤서와이즈 AWAXIS-KR-31B-v5, 정부 운영 공개 LLM 평가서 1위 기록

AXIS 계열 모델 상위권 진입 이후 후속 모델로 최상위 성과 확인

Photo Image
K-AI 리더보드 (과기부산하). 사진=앤서와이즈 제공

인공지능 기술 기업 ㈜앤서와이즈는 자사의 AXIS 계열 모델 AWAXIS-KR-31B-v5가 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는 공개 AI 성능 평가 플랫폼인 K-AI 리더보드에서 종합 1위를 기록했다고 밝혔다.

공개된 순위표에 따르면 AWAXIS-KR-31B-v5는 평균 0.582점을 기록하며 종합 1위에 올랐다. 세부 지표에서도 KMMLU-Pro 0.724, CLIcK 0.848, HLE(Ko) 0.077, MuSR(Ko) 0.638, Com2-main(Ko) 0.626을 기록해, 공개된 평가 항목 모든 부문에서 1위를 기록했다.

이번 성과는 앞서 AXIS 계열 모델이 K-AI 리더보드 상위권에 오른 데 이어, 후속 모델이 종합 1위까지 올라섰다는 점에서 의미가 있다. 앤서와이즈는 기존 AWAXIS-Hybrid-28B가 상위권에 진입한 이후 모델 구조와 한국어 추론 성능을 고도화해 왔으며, 이번 AWAXIS-KR-31B-v5의 1위 기록을 통해 AXIS 계열 모델의 성능 개선 흐름을 공개 평가에서 확인했다.

K-AI 리더보드는 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는 공개 AI 성능 평가 플랫폼으로, 국내 연구기관과 기업이 개발한 대규모언어모델의 한국어 성능을 비교·평가한다. 평가 항목은 한국어 기반 지식과 상식, 한국어 문화 및 언어적 특성, 고난도 논리 추론, 복합 문맥 이해, 상황 맥락 및 대화 의도 파악 등 실제 한국어 AI 활용성과 관련된 지표로 구성된다.

앤서와이즈는 이번 1위 성과를 단순한 모델 순위 경쟁보다 AX 기술 구현을 위한 기반 성능 확보로 보고 있다. 회사는 AI가 채팅창 안에서 답변을 생성하는 방식에 머무르지 않고, 실제 기기와 업무 환경에서 바로 호출되고 실행되는 방향으로 발전할 것으로 보고 있다. 이에 따라 사용자의 반복 업무 방식, 판단기준, 창작 패턴 등을 AI가 활용 가능한 실행 자산으로 구조화하는 기술에 주목하고 있다.

앤서와이즈는 AXIS 계열 모델 고도화 과정에서 AI 모델 개발 역량을 보유한 비드래프트와 기술 협력을 진행해 왔다. 회사는 자체 LLM을 최종 목적이 아니라, 사용자의 업무 방식과 창작 패턴을 AI 실행 자산으로 구조화하기 위한 기반으로 보고 있으며, 이번 리더보드 1위는 앤서와이즈가 추진하는 실행형 AI 기술 방향성과 모델 고도화 전략이 공개 평가에서 성과로 이어진 사례라는 설명이다.

앤서와이즈는 “기존 AXIS 계열 모델의 상위권 진입에 이어 AWAXIS-KR-31B-v5가 1위를 기록한 것은 앤서와이즈의 한국어 AI 모델 고도화 방향이 성과로 이어지고 있음을 보여준다”며 “앞으로도 모델 성능 자체를 높이는 동시에, AI가 실제 업무와 창작 환경에서 더 쉽고 빠르게 활용될 수 있는 AX 기술을 고도화해 나가겠다”고 밝혔다.

앤서와이즈는 향후 AWAXIS 계열 모델을 기반으로 한국어 AI 성능을 지속적으로 개선하는 한편, 온보드 AI, 물리적 AI 인터페이스, 사용자 수행특성 기반 실행 자산화 기술을 단계적으로 발전시킬 계획이다.


서희원 기자 shw@etnews.com

브랜드 뉴스룸