카카오브레인, 내년 초 초거대 '멀티모달 AI' 선보인다

카카오브레인이 내년 초 글과 이미지를 함께 이해하는 '멀티 모달(multi-modal) 인공지능(AI)' 모델을 공개한다. 빠른 시장확산을 위해 20억장 대규모 텍스트와 이미지 데이터로 구성된 데이터셋도 공유한다.

20일 김일두 카카오브레인 대표는 온라인 기자간담회에서 “이미지를 글로 표현하거나 글에 알맞은 이미지를 찾아낼 뿐 아니라 자연어로 복잡한 이미지 검색을 수행하는 글로벌 최대 규모의 초거대 멀티모달 AI 모델을 선보일 계획”이라고 밝혔다.

Photo Image
김일두 카카오브레인 대표

앞서 카카오브레인은 초거대 AI 모델 '코지피티(KoGPT)'와 '민달리(minDALL-E)'를 오픈소스로 공개한 바 있다. 코지피티는 한국어를 사전적, 문맥적으로 이해하고 이용자가 원하는 결과 값을 보여주는 한국어 특화 언어모델이다. 민달리는 이용자가 텍스트로 명령어를 입력하면 실시간으로 원하는 이미지를 만들어주는 이미지 생성 모델이다. 이들에 이어 텍스트와 이미지를 넘나드는 멀티모달 모델을 내년 공개한다는 방침이다. 예를 들어 이미지를 글로 표현하거나 글에 적합한 이미지를 검색하고 찾아낼 수 있다.

김 대표는 “글로벌하게 이미지와 텍스트를 동시에 연구하는 흐름이 이어지고 있는데, 구글과 오픈AI가 각각 18억건, 10억건의 데이터 셋을 만들어 시장을 리드하고 있다”며 “우리는 고퀄리티로 20억건의 데이터 셋을 구축했고, 1월에 이미지와 텍스트를 이해하는 초거대 AI 모델을 일부 공개할 계획”이라고 밝혔다.

김 대표는 “멀티모달 AI가 완성되면 포털 다음과 카카오톡의 이미지 검색이나 카톡 내 다양한 쇼핑 서비스에 우선 적용할 예정”이라고 말했다.

최근 초거대 AI 시장을 놓고 네이버, LG 등과의 경쟁이 치열하다. 특히 네이버보다 뒤늦게 합류한 카카오브레인의 경우 이들 경쟁업체의 파라미터(매개변수) 규모에 비해 현저히 적은 상황이다. 일반적으로 파라미터가 많을수록 AI가 더 정교한 학습을 할 수 있는 것으로 알려졌다.

이에 대해 김 대표는 “AI 언어모델은 규모가 클수록 속도도 느리고 학습 과정도 복잡해 결과를 도출하는데 지연되는 부분이 있다”며 “최근 구글이나 오픈AI에서도 초거대 AI 모델 규모를 줄이는 추세이며, 실시간 응답이 가능한 실용구간은 6억~80억개 파라미터 수준”이라고 말했다. 이어 그는 “네이버가 논문에 공개한 한국어 테스트를 동일하게 진행한 결과 코지피티가 하이퍼클로바보다 높은 성능을 나타냈다”고 강조했다.


성현희기자 sunghh@etnews.com

브랜드 뉴스룸