인공지능(AI) 인프라 솔루션 기업 모레가 자체 개발한 한국어 거대언어모델(LLM) 파운데이션 모델인 'Llama-3-Motif-102B'(이하 Motif)를 허깅페이스(오픈소스 커뮤니티)에 오픈소스로 공개한다.
고성능 한국어 LLM을 오픈소스로 배포해 한국 AI 생태계 성장에 기여하는 게 목표다.
이번에 모레가 공개한 '모티프(Motif)'는 기존 출시된 최고 LLM의 한국어 성능을 능가한다.
모티프는 1020억개 매개변수(파라미터)를 가진 한국어 LLM으로, 한국판 AI 성능 평가 체계인 'KMMLU' 벤치마크에서 빅테크 AI 중 최고 수준으로 평가받는 오픈AI의 GPT-4보다 높은 점수를 받았다. 모티프는 64.74점으로 메타나 구글, 네이버보다 높은 최고 점수를 기록했다.
모티프는 토큰(텍스트 데이터 기본 단위) 기준으로 1870억개에 달하는 방대한 양의 한국어 학습량과 독자적 학습 기법이 강점이다. 웹상에서 수집된 글과 전문지식, 국내 최대 규모의 정제된 한국어 데이터 등을 학습에 포함했다.
모레는 한국어 LLM 개발에 앞서 올해 초 영어 LLM도 선보였다. 700억개 매개변수를 가진 모레의 영어 LLM 'MoMo-70B'은 허깅페이스에서 운영하는 '오픈 LLM 리더보드' 평가에서 77.29점이라는 높은 점수를 기록하며 3개월만에 글로벌 1위에 올랐다.
한국어 LLM은 이러한 영어 LLM 개발 과정에서 얻은 노하우를 바탕으로 완성할 수 있었다. 모티프는 사전 훈련된 언어모델과 지시사항을 따르는 데 특화된 인스트럭트 모델 2가지 버전의 오픈소스가 공개된다.
모레는 AI 인프라 소프트웨어 기술력을 바탕으로 지식재산(IP) 산업과 같은 창작 영역을 비롯해 의료, 법률, 금융 등에 특화된 LLM을 개발하고 멀티모달 모델 개발에 나서는 등 AI 모델 허브를 목표로 사업을 추진한다.
조강원 모레 대표는 “고성능 LLM을 누구나 활용할 수 있도록 오픈소스로 공개하는 것은 무엇보다 국내 AI 생태계가 보다 발전적 방향으로 성장하고, 소버린 AI에 기여하기 위함”이라며 “우리와 같은 국내 AI 산업 발전을 위해 노력하는 스타트업 등 많은 기업들이 적극 활용해주면 좋겠다”고 말했다.
김명희 기자 noprint@etnews.com