챗GPT로 답을 복붙해도 점수는 같았다, 단 한 가지만 빼고

발행일 : 2026-04-20 09:09 업데이트 : 2026-04-20 09:09

어떤 AI 챗봇을 쓰든 학생들의 과학 문제 풀이 점수는 달라지지 않았다. 홍콩대학교(The University of Hong Kong) 연구팀이 2025년 발표한 논문에 따르면, 48명의 중학생이 맞춤형 AI 챗봇과 챗GPT(ChatGPT) 같은 범용 AI 챗봇을 각각 사용해 문제를 풀었을 때 최종 점수는 통계적으로 동일했다. 그런데 학생들의 머릿속에서 일어난 일은 완전히 달랐다.

Photo Image — 그림1. 한 반을 두 그룹으로 나눠 각자 두 종류의 챗봇을 순서만 바꿔서 모두 경험하게 한 실험 구조 그림1. 한 반을 두 그룹으로 나눠 각자 두 종류의 챗봇을 순서만 바꿔서 모두 경험하게 한 실험 구조

48명의 중학생, 두 AI를 나란히 비교하다

맞춤형 AI 챗봇 교육 효과를 직접 비교한 이 연구는 홍콩 중학생 48명(평균 연령 12.06세)을 대상으로 진행됐다. 한쪽은 '소크라테스식 질문법(Socratic questioning method)'을 기반으로 설계된 맞춤형 AI 챗봇이었고, 다른 한쪽은 챗GPT처럼 질문에 바로 답을 내놓는 범용 AI 챗봇이었다. 소크라테스식 질문법이란 답을 직접 알려주는 대신 "왜 그렇게 생각하나요?", "다른 방법은 없을까요?" 같은 질문을 연속으로 던져 학생 스스로 생각하게 만드는 방식을 말한다. 고대 그리스 철학자 소크라테스(Socrates)의 교육 방식에서 이름을 따온 개념이다.

두 챗봇 모두 구글(Google)의 최신 언어 모델인 제미나이 2.5 플래시(Gemini 2.5 Flash)를 기반으로 만들어졌다. 차이는 딱 하나였다. 맞춤형 챗봇은 답을 주지 않고 질문만 돌려줬고, 범용 챗봇은 묻는 대로 즉시 답해줬다. 각 학생은 길이 측정이나 부피 계산처럼 교과서에서 처음 배우는 개념을 AI 챗봇과 대화를 나누며 익히고, 이를 실생활 문제에 적용하는 과제를 35분 동안 수행했다. 연구팀은 이 과정에서 발생한 총 3,297건의 학생-챗봇 대화를 수집해 분석했다.

맞춤형 챗봇, 대화 횟수 73% 더 많았다

맞춤형 챗봇을 사용한 학생들의 평균 대화 횟수는 21.17회였고, 범용 챗봇을 사용했을 때는 12.21회에 그쳤다. 횟수로만 보면 약 73% 차이가 난다. 이 차이가 작아 보일 수 있지만, 하루 10번의 AI 대화가 매일 쌓인다고 가정하면 한 달 뒤에는 한 학생은 300번, 다른 학생은 183번 AI와 사고를 주고받은 셈이 된다. 이 대화 횟수는 단순한 클릭 수가 아니라, 문제를 풀기 위해 생각을 꺼내고 다듬고 점검한 횟수를 뜻한다.

인지 다양성(cognitive interaction diversity) 지표에서도 같은 패턴이 나타났다. 인지 다양성이란 한 가지 방법에만 의존하지 않고 얼마나 다양한 사고 전략을 사용했는지를 0에서 1 사이 수치로 나타낸 것이다. 맞춤형 챗봇 사용 시 평균 0.420인 반면, 범용 챗봇은 0.299였다(t=3.301, p=0.004). 맞춤형 챗봇 사용 학생들이 더 다양한 방식으로 생각하고 문제에 접근했다는 의미다. 수치가 0.1 정도 차이에 불과해 보여도, 이것이 수개월에 걸쳐 누적되면 각자의 사고 방식과 문제 해결 능력에 뚜렷한 격차를 만들어낼 수 있다.

범용 AI가 만든 '인지적 지름길'

범용 챗봇을 사용할 때 가장 많이 관찰된 행동은 '복사·붙여넣기(Copy & Paste)'와 '직접 답 요청(Request direct answers)'이었다. 과제를 통째로 챗봇에 붙여넣고, 나온 답을 그대로 제출 답안에 옮겨 적는 방식이다. 심지어 챗봇에게 답변을 보기 좋게 형식만 다시 정리해달라고 요청하는 행동까지 자주 관찰됐다.

반면 맞춤형 챗봇을 사용한 학생들에게서 가장 많이 나타난 행동은 '단계 따르기(Follow steps)'였다. 챗봇이 "이 개념이 무엇인지 먼저 설명해볼 수 있나요?"라고 물으면, 학생은 자신의 생각을 정리해 대답해야 했다. 챗봇은 그 대답을 바탕으로 다시 질문을 이어갔고, 학생들은 자신의 풀이 과정을 스스로 검토하고(Refine solution) 잘못된 부분을 고쳐나가는 행동까지 보였다.

연구팀은 이 현상을 '인지적 오프로딩(cognitive offloading)'으로 설명했다. 스스로 처리해야 할 사고 과정을 AI에 통째로 넘겨버리는 현상을 말한다. 범용 챗봇은 학생 대신 생각해줬고, 맞춤형 챗봇은 학생 곁에서 함께 생각하도록 유도했다. 생각하는 수고를 AI가 대신 해줄수록, 학생의 두뇌는 점점 더 AI에 의존하게 된다는 것이 연구팀의 해석이다.

같은 점수 뒤에 숨은 학습의 진짜 격차

그런데 최종 결과는 뜻밖이었다. 두 챗봇 조건 사이에서 문제 풀이 점수는 통계적으로 유의미한 차이가 없었다(F=1.521, p=0.224). 맞춤형 챗봇 조건의 평균 점수는 3.317점, 범용 챗봇 조건은 2.937점으로(6점 만점 기준), 방향은 맞춤형 챗봇 쪽이 약간 높았지만 통계적으로 의미 있는 차이로 보기는 어렵다고 연구팀은 밝혔다.

왜 이런 결과가 나왔을까. 연구팀은 범용 챗봇이 '거의 완성된 답'을 즉각 제공하는 구조라는 점에 주목했다. 학생이 아무리 생각하지 않고 복사·붙여넣기를 반복해도, 챗봇이 내준 답이 워낙 정확하기 때문에 최종 점수는 비슷하게 나올 수 있다. 결과물만으로는 그 학생이 실제로 이해한 것인지, 아니면 AI를 도구로 써서 통과한 것인지 구별하기 어렵다는 이야기다. 이는 AI 지원 학습 환경에서 성적만으로 학생의 실력을 판단하는 것이 얼마나 위험한지를 보여주는 사례다.

AI 챗봇 설계가 학습 경험을 결정한다

이 연구가 주목받는 이유는 단순한 성적 비교를 넘어서기 때문이다. 어떤 AI 챗봇을 선택하느냐가 학생이 얼마나 생각하느냐를 결정할 수 있다는 증거를 제시했다. 학교나 교육 기관이 챗GPT 같은 범용 AI를 아무런 설계 없이 수업에 도입하면, 학생들은 더 적게 생각하면서도 같은 점수를 받는 구조를 자연스럽게 학습하게 된다.

연구팀은 AI 챗봇이 강력한 기능을 갖추는 것만으로는 충분하지 않다고 강조했다. 챗봇 설계 자체에 교육적 원칙이 담겨 있어야 하며, 학생 스스로 생각하는 행동을 이끌어낼 수 있어야 한다는 것이다. 이번 연구는 AI 교육 도입을 검토하는 학교와 정책 입안자들에게 "어떤 AI를 쓸 것인가"보다 "어떻게 설계된 AI를 쓸 것인가"를 먼저 물어야 한다는 메시지를 남긴다. 점수가 같다고 해서 학습이 같은 것은 아니다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 소크라테스식 질문법을 적용한 AI 챗봇이 무엇인가요?

소크라테스식 질문법을 적용한 AI 챗봇은 학생에게 답을 직접 알려주는 대신, "왜 그렇게 생각하나요?", "다른 방법은 없을까요?" 같은 유도 질문을 연속으로 던져 스스로 사고하도록 돕는 챗봇입니다. 단순히 답을 외우는 것이 아니라 문제를 푸는 과정 자체를 직접 경험하게 해주기 때문에, 인지적 참여도가 훨씬 높아집니다.

Q. 범용 AI 챗봇과 맞춤형 AI 챗봇의 학습 효과는 어떻게 다른가요?

이번 홍콩대학교 연구에 따르면 두 챗봇을 사용한 학생들의 최종 점수는 통계적으로 차이가 없었습니다. 그러나 맞춤형 챗봇을 사용한 학생들은 평균 약 73% 더 많은 대화를 나눴고 더 다양한 사고 전략을 활용했습니다. 범용 챗봇은 복사·붙여넣기로 쉽게 답을 얻게 만드는 반면, 맞춤형 챗봇은 학생이 스스로 생각하도록 유도한다는 점에서 학습 과정의 질이 크게 달라집니다.

Q. 학교에서 AI 챗봇을 교육에 도입할 때 무엇을 주의해야 하나요?

어떤 AI 챗봇을 사용하느냐보다 '어떻게 설계된 AI를 사용하느냐'가 더 중요합니다. 즉각 답을 제공하는 범용 챗봇은 학생의 사고 과정을 대신할 수 있어, 점수는 유지되더라도 실제 이해도나 사고력은 낮을 수 있습니다. 교육 목적에 맞게 설계된 챗봇을 선택하고, 성적 외에도 학생의 사고 과정을 함께 평가하는 방식이 효과적입니다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.
리포트명: Comparing the Impact of Pedagogy-Informed Custom and General-Purpose GAI Chatbots on Students' Science Problem-Solving Processes and Performance Using Heterogeneous Interaction Network Analysis
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)