업스테이지, 노코드 LLM 평가 플랫폼 '이벨버스' 공개

Photo Image
업스테이지 '이벨버스' 시연 예시

업스테이지가 자사가 개발한 노코드 거대언어모델(LLM) 종합 평가 플랫폼 '이벨버스'를 무료 공개했다. 오픈소스 형태로 '깃허브'에 공개돼 누구나 쉽게 활용할 수 있다.

통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 '벤치마크' 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 'H6' 지표를 포함, 대화 능력 지표 'MT-bench', 감성 평가 지표 'EQ-bench', 지시 이행 능력 지표 'IFEval' 등이 주요 벤치마크로 꼽힌다.

업스테이지는 이러한 주요 벤치마크를 한 군데 통합, 언어모델 성능을 종합적으로 테스트할 수 있는 자체 평가 플랫폼을 개발했다. 기존에는 특정 벤치마크를 테스트하려면 해당 플랫폼에 모델을 제출해야 하는 번거로움이 있었다. 이벨버스를 활용하면 여러 벤치마크 테스트를 동시에 진행할 수 있다.

업스테이지 이벨버스는 업무용 메신저 '슬랙'에 응용프로그램인터페이스(API) 챗봇 형태로 연동해 사용성을 확대했다. 슬랙 안에서 이벨버스 챗봇과 대화(DM)를 통해 모든 평가 과정을 간소화한 것이 특징이다.

이용자는 '호출' '평가' 등 채팅창에 2개의 명령어만 입력하면 바로 원하는 모델을 호출해 테스트할 수 있다. 벤치마크 별 점수에 대한 종합 리포트까지 확인할 수 있어 모델 간 비교 평가도 용이하다.

김성훈 업스테이지 대표는 “누구나 자신이 개발한 LLM을 쉽게 테스트해 볼 수 있는 이벨버스 플랫폼을 무료로 공개하게 됐다”며 “업스테이지는 글로벌 생성형 AI 시장의 선두주자로서 LLM 생태계 발전과 확산을 위해 다양한 노력을 지속해 나갈 것”이라고 밝혔다.


김명희 기자 noprint@etnews.com