AI가 수학 문제는 풀면서 "그래서 어떻게 됐어?"는 모른다

발행일 : 2026-04-08 12:09 업데이트 : 2026-04-13 09:34

AI 모델이 97%에 가까운 정답률을 기록하면서도, 정작 자신이 답한 내용에 상대방이 어떻게 반응할지는 거의 예측하지 못한다는 연구 결과가 나왔다. 세일즈포스(Salesforce) AI 연구팀이 2026년 4월 공개한 논문 "Beyond the Assistant Turn"은 LLM(거대언어모델)이 대화에서 답변을 생성하는 능력과, 그 답변 이후 상대방의 반응을 이해하는 능력이 서로 완전히 분리되어 있음을 실험으로 보여준다. AI를 다중 에이전트 시스템이나 자동화된 협업 도구로 활용하려는 개발자와 실무자라면 반드시 짚고 넘어가야 할 발견이다.

시험 만점 AI가 대화는 못 하는 이유

상식적으로 생각하면, 문제를 잘 푸는 AI일수록 대화도 잘 이어갈 것 같다. 하지만 연구팀의 실험 결과는 정반대였다. 현재 AI 벤치마크(성능 평가 기준)는 오직 한 가지만 측정한다. AI가 질문에 대해 올바른 답변을 내놓는가, 즉 '어시스턴트 턴(assistant turn)'이라고 부르는 응답 품질만 평가한다. 대화 상대방, 즉 사용자가 그 응답을 받고 어떤 반응을 보일지는 측정 대상이 아니다.

연구팀은 이 빈자리를 '사용자 턴 생성(user-turn generation)'이라는 실험으로 채웠다. 실험 방식은 단순하다. AI가 질문에 답을 한 뒤, 이번에는 같은 AI에게 "이제 당신이 사용자 역할로 다음 메시지를 써보라"고 요청한다. 그 결과로 나온 문장이 앞선 AI의 답변을 실제로 이해하고 반응한 것인지, 아니면 그냥 처음 질문을 되풀이하거나 엉뚱한 말을 하는지를 측정한다. 상대방이 내 말을 듣고 어떻게 반응할지 예상하는 능력, 즉 '상호작용 인식(interaction awareness)'을 드러내는 탐침(probe)으로 쓰인 것이다.

최대 96.8% 정답률 모델의 후속 질문 생성률, 거의 0%

연구팀은 큐웬(Qwen)3.5, gpt-oss, GLM(글림)-4.7 계열 11개 모델을 대상으로 수학 추론(GSM8K), 지시 따르기(IFBench), 전문가 수준 질의응답(GPQA Diamond) 등 5개 데이터셋에서 실험했다.

결과는 충격적이다. 큐웬3.5 계열에서 GSM8K 정답률은 0.8B(약 8억 개 파라미터) 모델의 41.6%에서 397B-A17B(약 3,970억 개) 모델의 96.8%까지 크게 오른다. 그러나 같은 모델이 사용자 역할로 진짜 후속 반응을 생성하는 비율, 즉 '진성 후속 질문 생성률(genuine follow-up rate)'은 대부분의 모델에서 0%에 가깝게 나타났다. 8개 모델 중 5개가 GSM8K에서 0.0%를 기록했다. 모델 크기를 약 500배 키워도 대화를 이어가는 능력은 전혀 개선되지 않은 것이다.

이를 일상에 비유하면 이렇다. 친구에게 어려운 수학 문제 풀이를 설명해 줬더니, 친구가 "맞아, 그런데 5번 단계에서 왜 그 공식을 썼어?"라고 묻는 대신 처음 했던 질문을 그대로 다시 읊는 상황이다. 답을 아는 것과 대화를 이어가는 것은 전혀 다른 능력이다.

숨어 있는 능력, 온도를 높이면 깨어난다

그렇다면 이 능력은 완전히 없는 걸까? 연구팀은 여기서 흥미로운 발견을 했다. AI 응답의 '온도(temperature)'를 높이면, 즉 확률적으로 더 다양한 표현을 생성하도록 설정을 바꾸면 진성 후속 질문 생성률이 급격히 올라간다.

큐웬3.5-27B 모델은 결정론적 생성(T=0, 가장 확률 높은 답만 선택)에서 GSM8K 후속 생성률이 0%였지만, 온도를 1.0으로 높이자 22%까지 올랐다. GPQA Diamond에서는 1.5%에서 35.9%로 뛰었다. 이는 능력이 없어서가 아니라 훈련 방식이 이 능력을 '기본 응답 모드'에서 억눌러 놓았음을 의미한다. 다만 gpt-oss 계열은 다른 양상을 보였다. gpt-oss-120b는 GSM8K에서 온도를 최대로 올려도 0.1%에 머물렀다. 이는 해당 모델이 이 맥락에서 상호작용 인식 자체가 더 근본적으로 부재한 상태임을 시사한다.

모델 크기와 상호작용 인식 사이에 일관된 상관관계도 없었다. IFBench에서 T=1.0 기준으로 가장 큰 모델(397B-A17B)이 43.7%를 기록할 때, 훨씬 작은 9B 모델은 36%, 심지어 0.8B 모델도 27.7%에 달했다. 크다고 대화를 더 잘하는 것이 아니다.

훈련 방식이 바꾼다, 협업 지향 학습의 효과

그렇다면 이 능력을 키울 수는 있을까? 연구팀은 큐웬3.5-2B 모델에 '협업 지향 추가 훈련(collaboration-oriented post-training)'을 적용했다. 구체적으로는 CollabLLM 방식을 사용해 다중 턴 대화 품질을 높이는 방향으로 훈련했다. 중요한 점은, 이 훈련이 사용자 턴 생성을 직접 가르친 것이 아니라는 사실이다. 어시스턴트의 응답 품질만을 목표로 했다.

결과는 의미심장하다. 지도학습 방식(SFT)으로 훈련한 모델은 IFBench에서 후속 생성률이 1%에서 48%로, GPQA Diamond에서 2%에서 46%로 크게 증가했다. 강화학습(RL) 방식은 수학 정확도(67.4%)를 유지하면서도 후속 생성률을 전반적으로 올렸다. 다중 대화 맥락을 고려해 훈련하면, 직접 가르치지 않아도 상호작용 인식이 함께 높아지는 것이다.

AI 평가의 빈자리

이번 논문이 드러낸 것은 현재 AI 평가 체계의 구조적 공백이다. 벤치마크 점수가 높은 모델이 실제 다중 에이전트 파이프라인이나 자동화 대화 시스템에서 반드시 좋은 파트너가 되지는 않는다는 의미다. 연구팀 스스로도 "모델 크기나 정확도만으로는 상호작용 인식을 예측할 수 없다"고 명시했다.

다만 이 연구에는 열린 질문도 남는다. 실험이 영어 중심의 제한된 도메인에서 이루어졌고, 온도 상승이 실제 배포 환경에서 어느 수준의 유용함으로 이어지는지는 추가 검증이 필요하다.

상호작용 인식이 높은 모델이 실제 협업 성과를 얼마나 높이는지, 그리고 이것이 다국어·코드 생성·장기 다회 대화 환경에서도 일관되게 나타나는지는 두고 볼 필요가 있다. AI 시스템을 선택하거나 설계할 때 정확도 외에 어떤 차원을 추가로 봐야 하는지, 이 연구가 하나의 단서를 제공하고 있다는 점은 분명하다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 상호작용 인식(interaction awareness)이란 무엇인가요? 상호작용 인식이란 AI가 자신의 답변을 받은 상대방이 어떤 반응을 보일지 예측하고, 그에 맞는 맥락적 후속 메시지를 생성하는 능력을 말합니다. 단순히 질문에 정확히 답하는 것과는 다른 차원의 능력입니다.

Q. 모델이 크면 대화도 더 잘하지 않나요? 이번 연구에 따르면 그렇지 않습니다. 큐웬(Qwen)3.5 계열에서 모델 크기를 수백 배 늘려도 후속 질문 생성률은 거의 오르지 않았으며, 오히려 중간 크기 모델이 더 큰 모델을 앞서는 경우도 있었습니다.

Q. AI의 상호작용 인식을 높이려면 어떻게 해야 하나요? 연구에 따르면 협업 지향적 다중 턴 대화 데이터로 추가 훈련(post-training)을 진행하면 효과가 있습니다. 직접 사용자 역할을 가르치지 않아도, 다회 대화 맥락을 고려한 훈련만으로도 상호작용 인식이 향상되는 것이 확인됐습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)