LG가 전 세계 인공지능(AI) 연구자를 대상으로 처음으로 학술대회를 개최, 초거대 AI 생태계 확장에 나선다. 최근 주목받는 챗GPT처럼 AI를 활용한 이미지 캡셔닝 기술 발굴과 포괄적인 연구 환경 구축에 힘을 싣는다.

LG AI연구원은 내달 1일부터 4월 말까지 온라인으로 'LG 글로벌 AI 챌린지'를 개최한다고 31일 밝혔다.

Photo Image
LG의 초거대 멀티모달 AI 엑사원이 생성한 캡션 예시

LG그룹 첫 AI 연구 대회인 이번 행사는 '제로샷 이미지 캡셔닝'을 주제로 AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가할 예정이다. 초거대 멀티모달 AI인 '엑사원'을 연구 중인 '서울대학교 AI대학원', 이미지 캡셔닝 AI 상용화 서비스를 공동으로 준비 중인 셔터스톡과 함께 이번 경진 대회를 진행한다. 제로샷 이미지 캡셔닝 관련 다양한 기술을 공유하고 텍스트를 이미지로 시각화할 수 있는 '엑사원' 기술 개발 생태계 확장이 목표다.

셔터스톡은 세계 최대 규모 이미지를 보유한 크리에이티브 플랫폼 기업이다. 편향성과 선정성 등에 대한 AI 윤리 검증을 끝낸 고품질 이미지·텍스트 데이터셋 2만6000개를 무료로 제공한다. 이 데이터셋은 사진뿐 아니라 일러스트레이션, 그래픽 등 다양한 형태 이미지를 포함한다. 대회 참가자들은 저작권과 비용, 품질에 대한 고민 없이 자신들의 AI 모델 최적화와 성능 평가를 진행할 수 있다.

이번 대회 주제인 '제로샷 이미지 캡셔닝'은 AI가 사람의 시각 인지 능력처럼 처음 본 사물, 동물, 풍경 등이 포함된 이미지를 봤을 때나 일러스트레이션, 그래픽 등 표현 방식이 다른 이미지를 봤을 때 기존 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명할 수 있는 기술이다.

토끼를 한 번도 본 적이 없는 사람이 토끼 여러 마리와 고양이 한 마리가 함께 있는 것을 봤을 때 동물 생김새와 특성의 공통점과 차이점을 학습하고 '토끼도 털은 있지만 고양이와는 다르게 귀가 길고, 뒷다리가 발달했다'라고 설명할 수 있는 것과 비슷하다.

이 기술이 고도화되면 AI가 자동으로 캡션과 키워드를 생성해 검색 편의성과 정확도를 높일 수 있다. 의학 전문 데이터를 추가 학습할 경우 의학 영상을 분석하는 '의학 전문가 AI'로 활약할 수 있다. 특히 최근 자연어 검색 분야에서 주목받고 있는 챗GPT처럼 AI가 스스로 이미지를 이해하고 설명하며, 해시태그도 달 수 있는 이미지 캡셔닝 기술을 고도화해 이미지 검색 분야에 혁신을 가져올 것으로 예상된다.

Photo Image
초거대AI의 이미지 캡셔닝 과정

LG AI연구원은 오는 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 'CVPR 2023'에서 '제로샷 이미지 캡셔닝 평가의 새로운 개척자들'을 주제로 워크샵도 개최한다. 글로벌 석학과 이미지 캡셔닝 기술 연구 방향성, 확장성 등을 논의하는 한편 'LG 글로벌 AI 챌린지' 최종 수상팀 성과도 발표한다.

김승환 LG AI연구원 비전랩장은 “LG AI연구원은 현재 생성형 AI 뿐 아니라, 객체를 인식하는 기술 수준을 넘어 인간 수준으로 영상까지 이해하는 AI로 퀀텀 점프할 수 있는 가능성을 확인했다”고 설명했다. 이어 “세계적인 학회에서 영상 이해의 핵심 기술이자 기반 기술인 이미지 캡셔닝을 주제로 대회를 개최한 것은 LG가 컴퓨터 비전 분야의 글로벌 입지를 보여준 계기이며, 이번 대회를 통해 전 세계 연구자들과 함께 연구 의의와 필요성, 확장 가능성에 관해 논의하는 장을 만들고자 한다”고 말했다.


이경무 서울대 AI대학원 석좌교수는 “LG AI연구원과 서울대 AI대학원, 셔터스톡이 세계 최초로 챌린지와 워크숍을 공동 진행하는 것은 우리나라 AI 역량이 이미 세계적인 수준에 도달했다는 것을 의미하며 국제적 리더십을 높이는 계기가 될 것”이라고 말했다.


정용철기자 jungyc@etnews.com