오픈AI, 새 AI 모델 'GPT-5.2' 공개…구글 '제미나이3'보다 앞선 성능 강조

Photo Image
ⓒ게티이미지뱅크

오픈AI가 한 달 만에 새 AI 모델 'GPT-5.2'를 공개했다. 전문 지식 업무 수행에 특화된 모델이다.

한 달 간격으로 챗GPT 새 버전을 출시한 것은 2022년 11월 챗GPT 서비스를 시작한 이후 처음이다. 샘 올트먼 오픈AI 최고경영자(CEO)가 '코드 레드'를 가동하며 구글 등 후발주자와 경쟁에서 다시 우위를 확보하기 위한 전략의 연장선으로 풀이된다.

오픈AI는 11일(현지시간) 이전의 즉답(Instant), 사고(Thinking)에 프로 모드를 더해 모두 세 가지 모드로 구성한 GPT-5.2 시리즈를 출시한다고 밝혔다.

GPT-5.2의 즉답은 일상 업무와 학습을 위한 빠른 답변에 최적화했고 사고는 코딩이나 수학적 해결, 긴 문서 요약 등에 적합하다. 프로는 보다 긴 작업시간을 필요로 하는 어려운 질문에 적합하다.

오픈AI는 새 버전이 추론과 코딩 능력을 강화하고 환각을 줄였으며 AI 성능을 측정하는 다양한 벤치마크에서 최고 수준을 달성했다고 강조했다. 구글 '제미나이3' 성능보다 앞선다는 것을 우회적으로 강조한 것이다.

전문 산업 현장 44개 직종 업무 수행 능력을 평가하는 GDPval 평가에서 GPT-5.2 사고 모드는 70.9%, 프로 모드는 74.1%를 각각 기록했다. 전문가들과 대등하거나 더 뛰어난 능력을 갖춘 것으로 풀이된다. 특히 이전 버전 GPT-5의 38.8%와 비교해 성능이 대폭 개선됐다.

소프트웨어 엔지니어링 능력을 평가하는 SWE 벤치마크에서는 80%를 기록했다. 제미나이3 프로의 76.2%를 능가한 수치다. 코딩 능력이 뛰어난 것으로 알려진 앤트로픽의 '클로드 오퍼스4.5'(80.9%)와 1% 미만 격차다.

또 박사급 추론능력 측정 벤치마크 HLE에서도 구글 최신 AI 모델 성능을 넘어섰다. 모델 자체 능력만으로 진행한 평가에서 GPT-5.2 프로는 36.6%로 제미나이3 프로의 37.5%보다 소폭 낮았지만 검색 등 도구를 활용해 진행한 평가에서는 50%로 제미나이3 프로의 45.8%보다 높은 점수를 얻었다.

환각 현상도 크게 줄였다. 내부 테스트 결과 GPT-5.2 사고 모드 오류율은 6.2%로 전작 GPT-5.1의 8.8% 대비 약 30% 감소하며 신뢰도를 높였다.

긴 글 맥락을 파악하는 능력이나 그래프를 비롯한 그림과 사진을 인식하는 능력, 다단계 업무 해결 능력도 향상됐다. 정신건강을 비롯한 민감한 대화에서 응답 방식도 개선했다.

오픈AI는 연령 예측 모델을 적용해 18세 미만 미성년자에 대한 콘텐츠 보호 기능을 적용하고 부모 통제 기능을 강화했다고 설명했다.

GPT-5.2는 유료 요금제 구독자에 이날부터 순차 제공되며 개발자들도 API를 통해 사용할 수 있다. GPT-5.1은 앞으로 3개월 뒤 서비스를 종료한다.

오픈AI가 다음달 새 버전을 선보일 것이라는 관측도 나왔다. 앞서 월스트리트저널은 오픈AI가 내년 1월 새로운 모델을 선보일 것이라고 보도했다.


박종진 기자 truth@etnews.com

브랜드 뉴스룸