고려대, 학계 최초 한국어 특화 대규모언어모델(LLM) 공개...韓 생성AI 기여 기대

Photo Image
임희석 고려대 교수

고려대 연구진이 국내 대학 최초로 한국어 특화 대규모언어모델(LLM)을 공개했다. 초거대 언어모델 학습 데이터에 대한 중요성이 높아지는 가운데 한국어 특화 LLM을 개발한 것이다. 한국어 모델 뿐만 아니라 데이터셋까지 모두 공개하며 국내 생성형 인공지능(AI) 생태계 확대에 기여할 것으로 전망된다.

고려대 자연어(NLP)&AI 연구실 및 HIAI 연구소는 이달 초 한국어 특화 LLM ‘구름(KULLM)’을 글로벌 소프트웨어 개발자 플랫폼 깃허브에 공개했다고 18일 밝혔다. 네이버·카카오에서 ‘챗GPT’에 대응해 LLM 개발을 추진하고 있고, AI 전문 기업이나 국책연구기관에서 한국어 LLM을 공개한 적은 있지만 대학 사례는 이번이 처음이다.

구름은 오픈소스로 공개된 한국어 LLM ‘폴리글롯 한국어(Polyglot-Ko)’ 모델을 기반으로 양질의 한국어 데이터셋을 추가 학습했다. 추가 학습한 데이터셋은 기존 학습에 사용된 문서 텍스트 데이터와 다르게 자연어 업무지시에 해당하는 답을 어떻게 주어야하는 지에 대한 개선을 거쳤다.

구름 데이터셋은 오픈소스로 공개된 언어모델인 ‘GPT4올(GPT4ALL)’, 비쿠나, 데이터브릭스 ‘돌리’ 데이터를 병합했다. 모든 데이터셋은 독일 AI 번역서비스 ‘딥엘(DeepL)’을 통해 한국어로 번역해 활용했다.

Photo Image

고려대 연구진에 따르면 구름은 ‘코알파카(KoAlpaca)’와 ‘코비쿠나(KoVicuna)와 같은 오픈소스 기반 한국어 LLM 보다 우수한 성능을 구사하는 것으로 확인됐다. 연구진은 생성형 AI GPT-4 기준 언어모델 평가방법을 활용한 결과 GPT-4가 100을 기준으로 했을 때 구름 성능은 71.1로 나온다고 밝혔다.

구름은 GPT-4 매개변수(파라미터)의 약 10분의 1수준의 데이터셋을 기반으로 만들어졌다. 이는 대규모 LLM을 구축하기 위한 비용을 크게 낮춰 약 70~80% 상당 성능을 내는 자체 LLM을 구축할 수 있다는 의미다.

최근 글로벌기업은 비밀유출 등의 문제로 챗GPT와 같은 상용화된 LLM을 그대로 사용하는 것을 금지하고 있다. 기업이나 업무별 자체 LLM을 구축하는 사례가 늘어날 것으로 전망되는 이유다. 이때 학습 데이터셋을 공개한 언어모델이 많을수록 다양한 연구개발(R&D)이나 개조(튜닝) 작업이 이어질 수 있다.

임희석 고려대 NLP&AI 연구실 및 HIAI 연구소장(컴퓨터학과 교수)은 “대기업이 많은 비용을 투자해 개발하는 언어모델은 데이터셋이나 방법론을 공개하기 어렵다”며 “구름은 학습한 데이터 전체와 체크포인트, 학습방법까지 모두 공개함으로써 국내 자연어처리 분야 큰 기여를 할 것”이라고 말했다.


김명희 기자 noprint@etnews.com


브랜드 뉴스룸