Photo Image

'인공일반지능(AGI:Artificial General Intelligence)'을 구축하기 위한 플랫폼 기업의 경쟁이 치열해지고 있다. AGI는 사람과 같거나 그 이상의 지능을 갖춘 AI를 뜻한다. 이를 통해 이용자 수요를 보다 구체적으로 파악하고 정확한 답변을 내놓기 위한 행보다.

10일 업계에 따르면 네이버와 카카오, 구글 등 빅테크는 AGI의 핵심 축이 되는 '멀티모달(Multimodal)' 고도화에 적극 나섰다. 멀티모달은 AI가 텍스트, 이미지, 오디오, 비디오와 같은 다양한 형태의 정보를 동시에 이해하고 처리하는 능력을 의미한다.

네이버는 스마트렌즈에 멀티모달 기술을 적용 중이다. 문서 검색 기능, 쇼핑 검색 영역에도 확대 적용했다. 쇼핑 검색 영역에 적용된 멀티모달 AI 기술은 가구, 인테리어 카테고리 내에 약 1억4000여개의 상품에 대해 검색할 수 있는 기능을 제공하고 있다. 이미지 검색에 텍스트를 더해 사용자가 원하는 정보에 보다 빨리 도달할 수 있도록 지원 중이다. 현재 쇼핑, 장소 등 일반 정보성 주제에 대한 이미지·텍스트 쌍(pair) 데이터 학습을 통해 옴니서치 정확도를 높이는 중이다. 연내 하이퍼클로바X 기반 멀티모달을 공개할 예정이다.

카카오는 멀티모달 언어모델(MLLM) 오픈소스인 허니비를 고도화하고 있다. MLLM은 이미지와 명령어(프롬프트)를 입력하면, 텍스트로 답변하는 모델이다. 허니비를 서비스에 접목하면 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변한다. 카카오는 허니비를 활용한 각종 서비스 확장을 고려 중이다. 특히 효과적인 교육·학습 보조 도구로 사용할 수 있을 것으로 전망하고 있다.

구글은 AI 에이전트와 어시스턴트 개발을 위해 멀티모달리티 기술 고도화에 집중하고 있다. 검색, 포토, 워크스페이스, 안드로이드 서클투서치 등에 멀티모달 AI 모델인 제미나이를 활용하며 기술 개선을 꾀하고 있다. 현재 '내가 언제 수영을 배웠지?'라고 질문하면 구글 포토는 사진첩에서 이와 부합하는 콘텐츠를 찾아주며 '수영 실력이 어떻게 발전했는지 보여줘' 등과 같이 복잡한 질문에도 답이 가능하다. 제미나이 포 워크스페이스를 통해서는 업무에서 발생한 오디오, 비디오, 이미지 등 다양한 형태의 정보를 요약 받을 수 있다.

AI 멀티모달리티는 AGI를 형성하기 위한 필수 요소다. 업계는 AI 개발의 끝에는 스스로 문제를 정의하고 해답을 도출할 수 있는 AGI가 있을 것이라 내다본다. 이를 위해 다양한 유형의 정보를 종합적으로 이해하고 처리해 맥락까지도 정확히 파악할 수 있는 멀티모달이 필요하다.

아울러 멀티모달은 복잡한 과업을 오류 없이 수행하는 자동화 기능 향상에도 일조한다. 새로운 시장 확대의 기회도 잡을 수 있다. 교육, 예술, 엔터테인먼트, 헬스케어 등 다양한 분야에서 활용될 수 있기 때문이다.


플랫폼 업계 관계자는 “GPT-4o도 음성·영상 등 멀티모달로 고도화했고 제미나이도 텍스트에서 이미지 등으로 모달리티를 확장하는 등 멀티모달 AI 기술이 편리한 서비스를 제공하기 위한 필수 요소로 자리매김하고 있다”며 “AGI 등 더 발전된 형태의 AI를 구축하기 위한 멀티모달 고도화는 지속될 것”이라고 말했다.


손지혜 기자 jh@etnews.com