코난테크놀로지가 자체 개발한 대규모 언어모델 '코난 LLM'을 공개했다.
코난 LLM은 전체 토큰(LLM이 인식하는 문자 데이터 단위) 4920억개, 한국어 토큰 2940억개를 학습했다. 파라미터(매개변수) 131억개, 410억개 버전으로 구분된다. 파라미터 사이즈를 줄이고 학습 토큰을 늘려 비용은 합리화하고 성능은 최대한 높였다.
코난 LLM은 △문서 초안 생성 △문서 요약 △질의응답을 지원한다. 각종 문서, 보고서, 보도자료 등 초안을 빠르고 손쉽게 생성하며 작업 생산량을 대폭 높인다. 콘텍스트 길이가 큰 것이 특징이다. 한 번에 보다 긴 글을 생성할 수 있다.
온프레미스(사내구축형)로 기업과 정부에 공급한다. 라이선스 또는 연간 구독 모델로 판매한다. 보안이 강점이다. 온프레미스로 제공하는 만큼 기업이나 정부 내부 데이터 유출을 막을 수 있다. 허위 정보를 생성하는 '할루시네이션'까지 줄였다. 벡터 검색 기반 '코난 서치'를 연동해 답변과 함께 명확한 근거 및 출처를 참고문서 형태로 제시한다.
임완택 코난테크놀로지 전략기획본부 상무는 “기업과 정부 기관에서 코난 LLM에 대한 관심이 크다”면서 “지속적으로 코난 LLM을 설명하고 활용 방안을 제시하고 있다”고 말했다.
코난테크놀로지는 오는 11월 전체 학습 토큰 7000억개, 한국어 토큰 3220억개를 사용한 후속 모델을 발표한다는 계획이다.
김영섬 코난테크놀로지 대표는 “생성 인공지능(AI) 시장에 빠르게 대응하기 위해 기술 개발과 장비 투자를 이어왔다”면서 “기술 고도화에 지속 매진할 것”이라고 강조했다.
류태웅 기자 bigheroryu@etnews.com