[주니어전자]IT 핫픽 - AI는 수능문제를 얼마나 잘 풀 수 있을까?

Photo Image
(코파일럿으로 이미지 생성)

“인공지능(AI)은 대학수학능력시험 문제를 얼마나 잘 풀 수 있을까요?”

최근 국내외 대표 AI 모델들에게 대학수학능력시험(수능) 문제를 풀게 한 실험의 결과가 공개되며 큰 관심을 모으고 있습니다. 결론부터 말하면, 이번 실험에서 해외 AI는 고득점을 기록한 반면, 국내 AI는 기대에 못 미치는 점수를 받았다는 평가가 나왔어요.

결과를 놓고 갑논을박(甲論乙駁·서로 자신의 주장을 내세우며 상대편의 주장을 반박함)이 벌어질만 합니다. “국내 AI가 해외 AI에 비해 한참 뒤처졌다”는 주장과 “점수 이면의 학습환경 차이를 먼저 봐야할 뿐 아니라 만능보다는 쓰임새에 맞는 전문 AI가 필요하다”는 주장이 엇갈리는 거죠.

호기심 많은 우리 인간들은 “AI의 능력치는 얼마나 될까?”에 관심이 커요. 그러다보니 AI를 상대로 이런저런 실험들을 해보게 마련입니다. 이번 실험은 수능문제 풀이 능력을 알아보는 수준이었지만 앞으로는 더 어렵고 복잡한 실험들을 하게 될 거예요.

이번 실험은 어떤 방식으로 치러졌고, 어떤 의미가 있는지 살펴볼게요.

어떤 문항으로, 어떻게 실험했을까?

서강대학교 김종락 수학과 교수 연구팀은 국내·해외 주요 AI 모델 10종을 대상으로 한 '수능(수학)·수리논술(논술) 문제 풀이' 테스트를 실시했어요. 국내외 AI의 수능문제 풀이 능력을 알아보는 실험이죠.

동일하게 주어진 수능문제를 국내외 AI모델들이 얼마나 잘 풀어내고, 정확한 답을 내는지 살펴보기 위한 실험이죠.

어떤 문제를 골랐나(총 50문항)

연구팀은 '수능 수학 20문제'와 '논술(수리 논술·대학 입시) 30문제' 등 총 50문제를 골라 국내 5개 모델과 해외 5개 모델 총 10개 모델에 동일하게 풀게 한 뒤 정답률을 비교했어요.

연구팀이 고른 수능 수학문제는 총 20문항으로 △수학 영역(공통과목) △확률과 통계 △미적분 △기하 등 4개 영역에서 가장 어렵다고 생각되는 문항 5개씩을 골랐죠.

함께 테스트한 수리논술 30문항은 △국내 주요 10개 대학 기출문제 10문제 △인도 대학입시(수학)에서 발췌한 문제 10문제 △일본 도쿄대 공대 대학원 입시 수준의 수학 문제 10문제입니다.

구체적으로 어떤 문제였는지에 대해 궁금증이 생깁니다.

서강대 연구팀은 이번 실험과 관련해 언론에 별도의 보도자료를 내지는 않았어요. 12월 12일 교내 세미나(생성형 AI와 수학문제 해결 및 생성 워크숍)에서 수학과 김종락 교수 연구팀이 발표한 내용을 토대로 국내 통신사가 뉴스를 만들었고, 다른 뉴스매체들이 통신사의 뉴스를 인용해 보도한 것으로 추정돼요.

그러다보니 구체적으로 어떤 문제를 어떻게 실험했는지를 뉴스에서 찾기는 쉽지 않아요. 출제된 문제와 국내외 AI모델들의 문제풀이 과정, AI모델별로 획득한 점수 등을 확인하려면 연구결과가 업로드돼 있는 사이트(EntropyMath Leaderboard)에 직접 들어가봐야 합니다.

여기에는 AI모델은 각각의 출제문제를 푸는데 몇초가 걸렸는지, 어떤 방법으로 문제를 풀었는지, 정답률은 얼마인지 등도 상세히 나타나 있으니 참고해보면 좋을 거예요.

IT핫픽에서는 출제된 50문항 가운데 국내 주요 10개 대학의 기출문제를 샘플로 1개 문항의 예를 들어보겠습니다. 10개 대학은 중앙대, 동국대, 이화여대, 한양대, 건국대, 고려대, 경희대, 성균관대, 서강대, 연세대 등이예요. 다시 이중에서 서강대 문제 샘플을 살펴보면 아래 그림과 같죠.

Photo Image
그림1. 서강대 기출문제를 구글 '제미나이 3 프로 프리뷰'가 풀이한 결과.

그림1은 서강대 기출문제를 구글 제미나이 3 프로가 풀이한 결과입니다. 이 결과를 직접 확인하려면 'EntropyMath_SAT_50' 섹터에 들어가 표 상단에 있는 'KOR' 버튼을 누르면 내용을 볼 수 있어요.

Photo Image
그림 2

이밖에도 어떤 문제를 AI모델들이 어떻게 풀어냈는지가 궁금하다면 그림2의 초록·노랑·주황·분홍색 영역을 마우스로 클릭하면 직접 확인해볼 수 있습니다.

어떤 AI모델들을 실험했나(국내외 AI 10개 모델)

문제풀이 실험 대상은 국내 AI모델 △업스테이지 '솔라 프로-2' △LG AI연구원 '엑사원 4.0.1' △네이버 '하이퍼클로바-007(HCX-007)' △SK텔레콤 'A.X 4.0(72B)' △엔씨소프트 경량 모델 '라마 바르코 8B 인스트럭트' 등 5종과 해외 AI모델 △오픈AI 'GPT-5.1 계열' △구글 '제미나이 3 프로 프리뷰' △앤스로픽 '클로드 오퍼스 4.5' △xAI '그록 4.1 Fast' △딥시크 'V3.2' 등 5종입니다.

Photo Image
실험 대상 AI 모델

어떤 방식으로 평가했고, 채점은 어떻게?

동일한 문제 세트(50문제)를 각 AI모델에 동일한 방식으로 제시해 풀게 했어요. 문제 원문을 텍스트로 입력한 후 답과 풀이를 요구하는 방식이죠. 오차를 줄이기 위해 AI모델별로 최대 세 차례 문제풀이 기회를 제공했어요.

채점 기준은 기본적으로 '정답 여부'를 따져봤고, 일부 논술형 문제는 채점자가 풀이과정의 논리와 설명까지 확인해 정답으로 여부를 판정했습니다.

비교과정에서 공정성을 높이기 위해 공개된 각 모델의 기본(표준 인터페이스)에서 문제를 입력해 수행했다는 게 연구팀의 설명입니다. 국내 AI모델에 대해서는 보다 정답률을 높이려는 취지로 파이톤(Pyton) 게산도구 사용을 허용했어요.

어떤 결과가 나왔나?

한국, 인도, 일본의 수학능력시험 문제를 샘플로 다룬 EntropyMath_SAT_50 섹터에서는 해외 AI모델 성적이 대략 76~92% 범위인 것으로 조사됐어요. 제미나이 3 프로가 92%로 1위, 클로드 오퍼스 84%, 그록 82%, GPT-5.1 약 80%, 딥시크 76% 등의 순위입니다.

Photo Image
한국, 인도, 일본의 수학능력시험 문제를 샘플로 다룬 EntropyMath_SAT_50 섹터 평가결과표.

국내 모델 성적은 대부분 20점대로 낮았고, 예외적으로 업스테이지 '솔라 프로-2'만 약 58점을 기록했어요. 엔씨 경량 모델(라마 바르코 8B 인스트럭트)은 2점으로 가장 점수가 낮은 것으로 조사됐어요.

이 수치만 보면 해외 AI모델의 약진에 비해 국내 AI모델이 부진하다는 것을 볼 수 있어요. 하지만 AI 능력을 단순한 수능풀이로만 판단할 수 있는가에 대한 고민도 생깁니다.

실험에 대한 평가와 반응은?

연구팀은 이번 비교로 국내 AI모델들이 고난도 수학·논술 문제 해결능력에서 해외 상위 모델과 큰 격차가 있음을 확인했다고 평가했습니다.

일부 언론에서는 이 결과를 두고 '국내 AI의 완패', '굴욕적인 성적'과 같이 자극적으로 표현하고 있습니다. 하지만 전문가들은 이를 단순히 국내 AI 기술력의 부족으로만 볼 수는 없다고 분석합니다.

낙제점 받은 이유? '목표'가 다르다.

국내 전문가들은 AI 모델을 개발할 때 설정했던 '목표'의 차이에서 발생한 결과라고 설명해요.

대다수의 국내 AI 개발사들은 당장 사업에 적용할 수 있는 업무용 AI 에이전트 개발이나 한국어 기반 서비스 강화에 중점을 두고 모델을 설계해왔습니다. 반면, 해외 선두 모델들은 수학, 코딩 등 복잡한 논리적 추론과 다단계 문제 해결 능력을 위해 방대한 데이터 학습과 추론 기능을 고도화하는 데 집중했습니다.

수학 문제 풀이는 일반적인 언어 소통을 넘어, 단계별로 검증을 거치는 정교한 추론 과정과 전문적인 데이터가 필요합니다. 과기정통부 장관 역시 “과학과 수학 등에 특화된 추론형 AI 모델 개발을 위한 데이터 학습이 부족했던 것이 사실”이라고 언급하며, 화학 분자 구조식 등 각 분야별 특화된 데이터를 학습해야 한다고 강조했습니다.

결론적으로, 이번 평가는 '논리 추론 특화 AI'와 '서비스 특화 AI'의 대결이었기에, 국내 모델들이 상대적으로 낮은 점수를 받은 것이죠.

점수는 낮았지만, 의미 있는 성과도 있었다.

그렇다면 국내 AI는 전혀 가능성이 없는 걸까요? 그렇지 않습니다.

국내 '국가대표 AI'로 불리는 일부 모델은 수학 개념 설명, 풀이 과정의 언어적 정리, 논술형 문제 접근에서는 해외 AI와 큰 차이를 보이지 않았습니다. 특히 서술형 답변의 자연스러움과 한국 교육과정에 맞춘 설명에서는 오히려 장점이 있다는 평가도 나옵니다.

즉, 시험 점수는 낮았지만 잠재력은 확인했다는 것이 전문가들의 공통된 의견입니다.

국내 AI가 더 잘하려면 무엇이 필요할까?

전문가들은 해결책도 분명하다고 말합니다.

첫째, 수학 특화 학습 데이터 확대입니다. 수능·모의고사·논술 문제처럼 '생각하는 수학' 데이터를 충분히 학습해야 합니다.

둘째, 풀이 과정 중심 학습입니다. 정답만 맞히는 것이 아니라, 사람처럼 '왜 이렇게 풀었는지'를 설명하는 훈련이 필요합니다.

셋째, 교육 현장과의 연계입니다. 학교·교사·교육 연구기관과 협력해 실제 학생들이 겪는 사고 흐름을 AI에 반영해야 합니다.

AI는 경쟁자가 아니라, 학습 도우미!

이번 실험을 두고 “AI가 수능을 대신 보는 시대가 오나”라는 걱정도 나옵니다. 하지만 전문가들은 AI의 역할을 이렇게 설명합니다. AI는 시험을 대신 보는 존재가 아니라, 모르는 개념을 설명해 주고, 풀이 과정을 함께 고민하며, 학습을 도와주는 디지털 튜터에 가깝다는 것입니다.

해외 AI모델의 높은 점수는 위기이자 동시에 국내 AI가 성장할 방향을 보여주는 지도이기도 합니다.

미래를 향한 시험은 이제 시작!

이번 수능 AI 실험은 '누가 이겼는가'를 가르는 시험이 아니예요. AI가 어디까지 왔고, 어디로 가야 하는지를 보여준 출발선에 가깝습니다. 국내 AI는 아직 수능 점수로는 부족할 수 있어요. 하지만 교육 현장을 가장 잘 아는 AI로 성장할 가능성은 충분합니다.

AI와 사람이 함께 배우는 미래 교실을 향한 도전은, 이제 막 첫 문제를 풀기 시작한 겁니다.

좌절 대신 '도메인 특화' 경쟁력으로 승부하자.

이번 수능 평가 결과는 우리 AI 개발자들에게 중요한 교훈과 재도약의 기회를 제공하고 있어요.

첫째, 평가에 사용된 국내 모델들은 대부분 정부 지원 프로젝트 이전의 기존 공개 버전이었습니다. 현재 정부의 지원을 받아 개발 중인 '국가대표 AI' 신규 버전들이 공개되면, 훨씬 향상된 성능을 보여줄 것으로 기대됩니다. 연구팀도 신규 모델이 나오면 재평가를 진행할 예정입니다.

둘째, 모든 분야에서 완벽한 '만능 AI'를 개발하는 것은 현실적으로 어렵습니다. 네이버나 카카오와 같은 국내 기업들은 대규모 모델 대신 서비스에 최적화된 경량화된 AI를 개발해 효율성과 비용을 잡는 전략을 추진하고 있습니다. 우리의 강점인 한국어와 산업 도메인에서 최고의 경쟁력을 갖춘 AI를 만드는 데 집중한다면, 충분히 세계적인 경쟁력을 확보할 수 있습니다.

셋째, 이번 평가를 주관한 서강대 연구팀은 수학, 과학 등 전문 분야 AI 성능 향상을 위해 '엔트로피매스(EntropyMath)' 리더보드를 개설하고, 난도 높은 자체 데이터세트를 국제적인 수준으로 키워나가겠다고 밝혔습니다. 이는 국내 AI 모델들이 부족했던 논리 추론 능력을 집중적으로 키울 수 있는 발판이 될 것입니다.

미래의 꿈나무 여러분! AI는 이제 우리 삶의 일부이자, 미래를 이끌어갈 핵심 기술입니다. 이번 성적은 국내 AI가 나아가야 할 방향을 명확하게 제시해 준 소중한 나침반과도 같습니다. 앞으로 국내 AI가 특화된 분야에서 세계적인 성과를 내며 다시 한번 도약하는 모습을 기대해봅니다.


최정훈 기자 jhchoi@etnews.com

브랜드 뉴스룸