카카오 카나나, '호랑이 리더보드'서 국내 프롬 스크래치 모델 최고 순위 기록

발행일 : 2025-10-22 13:37 업데이트 : 2025-10-22 13:37 지면 : 2025-10-23 14면

Photo Image — 카카오 카나나 '호랑이 리더보드' 평가 〈자료 카카오〉

카카오가 자체 개발한 인공지능(AI) 모델 '카나나'가 거대언어모델(LLM) 리더보드에서 경쟁력을 인정받았다.

카카오는 'Kanana-1.5-32.5b-instruct' 모델이 '호랑이 리더보드'에서 국내에서 프롬 스크래치 형태로 개발된 모델 중 최고 순위를 차지했다고 22일 밝혔다.

호랑이 리더보드는 미국 AI 개발자 플랫폼인 '웨이트앤바이어스(W&B)'가 LLM의 한국어 성능 평가결과의 랭킹을 공개하기 위해 운영하는 평가 리더보드다. 언어 모델의 한국어 능력을 비교하고, 국내외 다양한 언어모델을 대상으로 한국어 범용 성능, 정렬성(Alignment), 정보 탐색 능력 등을 종합 평가한다. 특히 한국어 환경에서 실질적 유용성을 중점적으로 평가해 국내 사용자 환경에 특화된 LLM 경쟁력을 가늠하는 중요한 척도로 사용된다.

카카오의 'Kanana-1.5-32.5b-instruct-2504' 모델은 국내 프롬 스크래치 모델 중 가장 높은 총점인 0.7879점을 기록했다. 프롬 스크래치 방식이란 모델 구조, 데이터셋, 학습 프로세스 등 모든 것을 독자적으로 구축하는 방식이다. 해외 거대모델의 '파인튜닝(미세조정)'에 의존하지 않고 순수 국내 기술력으로 개발한 모델을 뜻한다. 데이터 주권 확보와 한국어 환경에 최적화된 성능을 구현할 수 있는 핵심 기반이다.

카나나 모델은 실제 사용 환경에서 수요가 높은 특정 영역에서 글로벌 최상위 모델을 능가하는 성능을 보였다. 범용 언어 성능(GLP) 번역과 정보 검색 영역에서는 전체 1위인 오픈AI의 'o1' 모델을 뛰어넘는 성능을 기록했다. 언어 모델의 유용성과 안정성을 보여주는 정렬성 측면에서도 최상위권 성능을 보였다.

카카오는 이 같은 평가 결과가 단순한 언어에 대한 모델의 AI 이해도를 넘어 한국어 기반 정보 탐색과 실제 업무 적용에 있어 카나나 모델의 실질적 유용성이 글로벌 최고 수준임을 증명한 것이라고 설명했다.

이 밖에 카나나 모델은 세이프티 측면에서도 최고 모델 수준을 상회하는 결과를 보였다. 제어성, 윤리·도덕, 독성, 사회적 편견 등 세부 항목에서 상위 성능을 기록했다.

카카오 관계자는 “상위권을 기록한 카나나 언어 모델은 한국어와 영어 모두에서 강력한 성능을 보이는 초거대 규모 범용 언어모델”이라면서 “기존 모델을 상회하는 높은 성능과 대규모 서비스 트래픽을 효율적으로 감당할 수 있는 고효율적인 구조로 고도화 중인 카나나 2.0 개발에도 집중하고 있다”고 밝혔다.