카카오 '클릭하는AI' 만든다…CUA 개발 착수

Photo Image
정신아 카카오 대표가 지난해 9월 경기 용인시 카카오 AI 캠퍼스에서 열린 이프 카카오 25 콘퍼런스에서 카카오톡의 개편 방향에 관해 설명했다. 〈자료 카카오〉

카카오가 사람처럼 컴퓨터 화면을 보고 마우스·키보드를 조작해 자율적으로 작업을 수행하는 '컴퓨터 사용 에이전트(CUA)' 기술 개발에 도전한다. 오픈AI, 구글 등 글로벌 빅테크가 해당 기술을 활용한 서비스를 시작한 가운데 인공지능(AI) 에이전트 구현 기술을 확보하는 차원으로 풀이된다.

29일 업계에 따르면 카카오는 CUA 기술 개발에 착수했다. 자체 개발한 시각 언어 이해 모델인 '카나나-v(Kanana-v)'의 기능을 확장하면서 CUA를 도입한다.

CUA는 AI가 사람처럼 컴퓨터 화면을 보고 마우스와 키보드를 조작해 작업을 자율적으로 수행하는 기술이다. AI 에이전트를 실제 실행할 수 있는 기술로 꼽힌다. 웹 브라우저를 스스로 조작해 예약·쇼핑 등 작업을 자동 처리하는 오픈AI의 '오퍼레이터', 구글의 '마리나 프로젝트' 등이 CUA 기술을 활용한 대표 서비스다.

카카오는 CUA 가운데 '그래픽사용인터페이스(GUI) 그라운딩(Grounding)' 개발에 집중했다. 이 기술을 활용하면 에이전트 동작을 실행하기 위해 목표 대상의 정확한 화면 좌표를 찾아낼 수 있다. 최근에는 이를 기반으로 '계획(Planning)' 기술도 개발하고 있다. 이는 사용자의 목표를 컴퓨터가 실행할 수 있는 구체적인 단계로 쪼개는 능력이다.

카카오는 카카오톡을 중심으로 검색·커머스·예약·로컬·콘텐츠 등 서비스에서 사용자 요청에 응답해야 하는 에이전트를 구현할 계획이다. 이 때문에 AI 에이전트를 실행할 수 있는 CUA를 하나의 선택지로 두고 고도화하는 것으로 풀이된다. 특히 애플리케이션(앱)·웹·내부 도구·레거시 유저인터페이스(UI)가 혼재된 상황에서 AI 에이전트를 구현하도록 돕는다.

카카오 관계자는 “CUA를 단순 사용자인터페이스(UI) 조작 기술이 아닌 서비스형 에이전트 기술로 발전시키고자 한다”면서 “화면 이해를 넘어 사용자의 의도를 바탕으로 작업 절차를 구성하고 최종 과업을 완수하는 '엔드 투 엔드(End-to-end)' 역량이 중요하다”고 말했다.

카카오는 온디바이스에 탑재 가능한 규모로 경량화된 멀티모달 모델의 연구 개발과 서비스 적용도 검토한다. 이달 정식 서비스를 시작한 '카나나 인 카카오톡' 같은 온디바이스 AI 서비스에 멀티모달 기술이 활용될 전망이다. 장기적으로는 '카나나-o' 모델로 음성·비전·텍스트를 아우르는 통합형 AI를 구축할 계획이다.


변상근 기자 sgbyun@etnews.com

브랜드 뉴스룸