구글 '제미나이'로 AI 공세…평가는 “글쎄”

발행일 : 2023-12-07 14:38 업데이트 : 2023-12-07 17:50 지면 : 2023-12-08 2면

태생적 멀티모달로 설계
복잡·개념적 추론도 가능
MMLU 정답률 90% 기록
인간·GPT-4보다 뛰어나
전문가는 성능에 '물음표'

구글이 차세대 거대 언어 모델(LLM) '제미나이'를 공개하면서 텍스트만이 아닌 그림이나 영상을 보거나 듣고 대화할 수 있는 인공지능(AI) 시대가 개막됐다. 국내외 전문가들은 '성능이 개선됐지만 혁명적인 수준에는 이르지 못했다'라고 평가했다.

구글은 지난 6일(현지시간) 향후 AI 서비스의 기반이 될 LLM 제미나이를 공개했다. 제미나이는 시청각 등을 활용해 텍스트뿐만 아니라 이미지, 음성, 영상 등으로 상호작용할 수 있는 멀티모달 AI다.

구글은 제미나이를 개발 초기부터 다양한 모달리티로 학습시킨 '태생적 멀티모달'로 설계했다. 따라서 기존보다 개념적이거나 복잡한 추론도 가능하다.

구글이 공개한 영상에서 제미나이는 사람이 그림을 그리는 모습을 촬영하면서 음성으로 실황을 중계했다. 또 컵 3개를 사용한 숨김 게임도 맞췄다. 숫자는 물론이고 도표와 그래프를 포함한 수학 문제도 풀 수 있다.

순다르 피차이 구글 최고경영자(CEO)는 “업계에 보급된 32개 성능 평가 지표 중 30개에서 앞섰다”며 현재까지 성능이 가장 우수하다고 평가되는 GPT-4보다 뛰어나다고 강조했다. 구글은 제미나이와 GPT-4 간 비교표도 공개했다.

구글은 최상위 모델 제미나이 울트라가 대규모 다중작업 언어 이해(MMLU)에서 90%의 정답률을 기록했다며 '인간 전문가 점수인 89.8%를 넘은 최초의 모델'이라고 설명했다. 오픈AI의 GPT-4는 86.4%를 기록했다.

국내 업계는 제미나이가 멀티모달 AI 시대를 열었다는데는 동의하면서도 GPT-4를 성능에서 앞서지는 않는 것으로 봤다.

글로벌 AI 전문기업인 업스테이지의 박찬준 테크 리더는 “제미나이가 GPT-4를 완전히 능가했다고 보긴 어렵다”면서 “평가 방법에서 샷(Shot·문제)을 어떻게 주느냐에 따라서 GPT-4 성능이 더 좋을 수 있기 때문”이라고 말했다.

하정우 네이버클라우드 AI이노베이션 센터장도 “(구글이 공개한 제미나이 MMLU 성능을 보면) GPT-4는 5-샷(문제 해결 예시 5개를 모델에 제시하고 문제를 푸는 방식)을 기준으로 한 반면 제미나이는 연쇄적 사고(CoT)로 (문제 풀이를 32번 반복하는) 'CoT@32'를 진행했기 때문에 공정한 비교가 아니다”라면서 “제미나이 프로 버젼은 GPT-3.5나 GPT-4 사이 수준으로 추정된다”고 말했다.

도원철 코난테크놀로지 LLM 개발총괄 상무는 “실제 제미나이를 테스트한 전문가 그룹에서는 GPT-4를 능가하더라도 큰 격차는 아니다라는 평가”라면서 “구글 측 발표가 어느 정도 과장돼 있는 면이 있는 것 같다”고 말했다.

업계는 당장 제미나이가 관련 산업과 생태계에 미치는 영향이 크지는 않을 것으로 내다봤다. 디바이스 자체에 접목되는 '제미나이 나노'를 쉽게 적용하기 힘들 것이라는 관측이다.

박 리더는 “온디바이스 시장을 포커싱한 '제미나이 나노'가 가장 눈에 띈다”면서 “하지만 '나노'라는 이름에 비해 1.8B 크기를 가진 모델인데 실제 칩에 심을 수 있는 크기인지는 의문”이라고 말했다.

해외 전문가들도 제미나이의 성능에 대해 물음표를 보였다. 미국 매사추세츠 공과 대학(MIT) 테크놀로지리뷰 사이트에서는 '제미나이가 놀라워 보이지만, 과대 광고 일 수 있다'는 전문가들의 의견을 게제했다.

멜라니 미첼 미국 싼타페연구소 AI 연구원은 “제미나이가 매우 정교한 AI 시스템인 것은 분명하다”면서도 “다만 제미나이가 실제로 GPT-4에 비해 월등히 우수한 능력을 갖고 있다는 확신은 못 받았다”고 말했다.