문장 입력해 2초만에 '이미지' 뚝딱…ETRI, 초고속 생성형 시각지능 모델 공개

발행일 : 2024-01-28 10:17 업데이트 : 2024-01-28 09:17 지면 : 2024-01-29 20면

Photo Image — ETRI 연구진이 문장을 입력해 이미지를 만드는 코알라(KOALA) 모델을 시연하고 있다.

국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장 입력 시 2초 만에 이미지를 만드는 기술을 일반에 공개한다.

한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는데 기존(오픈AI 달리) 대비 5배 빠른 '코알라(KOALA)' 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바(Ko-LLaVA)' 2종을 공개한다고 밝혔다.

코알라 모델은 공개 소프트웨어(SW) 모델의 2.56B(25억 개) 파라미터를 지식 증류 기법(큰 모델 정보를 작은 모델로 전달하는 경량화 기법)을 적용해 700M(7억 개)으로 줄였다.

모델 크기는 3분의 1로 축소했고 고해상도 이미지 생성 속도는 기존 대비 2배, 달리(DALL-E) 3 대비 5배가량 빠르게 개선했다.

실제 연구진이 '달 아래 화성에서 책을 읽는 우주비행사 사진'이라는 문장을 입력하자, 코알라 700M은 1.6초 만에 이미지를 만들어 냈다. 칼로(카카오브레인)는 3.8초, 달리 2는 12.3초, 달리 3는 13.7초가 걸렸다.

ETRI는 8GB의 저용량 메모리의 저가 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다.

코알라 모델은 허깅페이스(HuggingFace) 환경에서 공개됐다.

이용주 ETRI 시각지능연구실장은 “향후 생성형 AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획”이라며 “글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 AI 기술을 효과적으로 활용할 기회를 제공할 예정”이라고 말했다.

한편 연구진은 또 챗GPT와 같은 대화형 AI에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이에 대해 질의응답할 수 있는 대화형 시각언어모델 코라바(Ko-LLaVA) 모델도 함께 공개했다.

아울러, 자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다.

공개 모델은 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다.

김영준 기자 kyj85@etnews.com