같은 AI인데 코딩 점수가 6% 차이…컴퓨터 자원 할당이 코딩 능력 결정한다

Photo Image

최첨단 AI들의 코딩 실력을 비교하는 순위표에서 1위와 2위는 보통 몇 퍼센트 차이로 갈린다. 하지만, 이 차이가 정말 AI의 실력 차이일까? 앤트로픽(Anthropic)의 연구 결과, AI가 작업하는 컴퓨터 환경만 바꿔도 점수가 6%나 달라질 수 있다는 사실이 밝혀졌다. 이는 순위표에서 1위와 2위를 가르는 격차보다 큰 수치다.

같은 AI, 같은 문제인데 점수가 6% 차이

앤트로픽 연구팀은 AI의 코딩 능력을 측정하는 '터미널 벤치 2.0(Terminal-Bench 2.0)'이라는 평가 도구를 사용했다. 여기에 똑같은 클로드 AI를 투입했고, 문제도 똑같았다. 단 하나, 컴퓨터 자원을 얼마나 쓸 수 있게 할지만 달리했다. 결과는 충격적이었다. 컴퓨터 자원을 가장 적게 준 경우와 무제한으로 준 경우, 문제 해결 성공률이 6%나 차이 났다.

왜 이런 일이 벌어질까? 일반적인 AI 평가는 AI가 내놓은 답만 채점한다. 하지만 코딩 평가는 다르다. AI가 실제로 프로그램을 짜고, 실행해 보고, 필요한 프로그램을 설치하고, 여러 번 수정하는 전 과정을 본다. 즉, AI가 작업하는 컴퓨터 환경이 문제 풀이의 핵심 부분이 되는 것이다. 컴퓨터 자원이 다르면 사실상 다른 시험을 보는 셈이다.

메모리 부족으로 프로그램이 강제 종료, 6%가 시스템 오류

연구팀이 처음 구글의 클라우드 컴퓨터 관리 시스템에서 평가를 돌렸을 때, 공식 순위표의 점수와 맞지 않았다. 더 심각한 문제는 전체 작업의 6%가 AI의 실력과 전혀 상관없이 컴퓨터 시스템 오류로 실패했다는 점이다.

원인은 프로그램 실행 환경의 메모리 관리 방식에 있었다. 프로그램을 격리된 공간에서 실행할 때, 두 가지 설정값이 있다. 하나는 '이만큼은 보장해주겠다'는 최소 보장량이고, 다른 하나는 '이것을 넘으면 프로그램을 강제 종료한다'는 상한선이다. 연구팀의 설정은 이 두 값을 똑같이 맞췄다. 즉, 프로그램이 잠깐이라도 메모리를 더 쓰면 바로 종료되도록 한 것이다. 반면 공식 순위표에서 사용하는 시스템은 더 여유있게 운영됐다. 일시적으로 메모리를 더 써도 바로 종료하지 않고 기다려주는 방식이었다.

가장 빡빡한 환경(기본 사양)에서는 시스템 오류율이 5.8%였지만, 무제한으로 자원을 쓸 수 있게 하자 0.5%로 뚝 떨어졌다. 기본 사양에서 3배 여유를 준 환경으로 바꾸니 오류율이 5.8%에서 2.1%로 크게 감소했다.

흥미로운 점은 자원 제한의 영향이 단계별로 달랐다는 것이다. 기본 사양부터 3배까지는 성공률이 거의 비슷했다. 이 구간에서는 주로 시스템 안정성 문제만 해결됐다. 기본 사양에서 실패한 작업들은 대부분 자원이 부족해서가 아니라 원래 풀 수 없는 문제였다.

하지만 3배를 넘어서면 상황이 완전히 달라진다. 3배에서 무제한까지 구간에서 시스템 오류는 1.6% 줄었는데, 성공률은 거의 4%나 급증했다. 왜일까? 추가로 주어진 컴퓨터 자원 덕분에 AI가 이전에는 시도조차 못 했던 방법을 쓸 수 있게 됐기 때문이다. 용량이 큰 소프트웨어를 설치하고, 여러 프로그램을 동시에 돌리고, 메모리를 많이 쓰는 테스트를 실행하는 것이 가능해진 것이다.

Photo Image

효율적인 AI vs 자원 활용 잘하는 AI

연구팀은 자원 제한이 실제로 평가가 측정하는 대상 자체를 바꾼다고 지적한다. 기본 사양의 약 3배까지는 추가 자원이 시스템 안정성 문제만 해결한다. 평가가 더 안정적으로 돌아갈 뿐, 더 쉬워지진 않는다.

그러나 3배 이상부터는 추가 자원이 AI가 이전에 못 풀던 문제를 풀도록 적극적으로 돕는다. 이는 제한이 실제로 평가 내용을 바꾼다는 것을 보여준다. 빡빡한 제한은 의도치 않게 아주 효율적인 방법을 쓰는 AI에게 유리하고, 여유 있는 제한은 사용 가능한 자원을 최대한 활용하는 AI에게 유리하다.

매우 빠르게 간결한 코드를 짜는 AI는 빡빡한 환경에서 좋은 점수를 받는다. 반면 무거운 도구를 써서 여러 방법을 시도하는 AI는 여유 있는 환경에서 좋은 점수를 받는다. 둘 다 중요한 능력이지만, 환경 설정을 밝히지 않고 하나의 점수로만 보여주면 실제로 어떤 차이가 있는지 알기 어렵다.

기본 패키지 설치했더니 메모리 부족

베이지안 네트워크라는 통계 기법을 다루는 작업에서 일부 AI의 첫 번째 행동은 파이썬 데이터 분석 패키지를 설치하는 것이다. pandas, networkx, scikit-learn 같은 유명한 도구들이다. 메모리가 충분하면 이 방법이 통한다. 하지만 메모리가 빡빡하면 AI가 문제 풀이 코드를 단 한 줄도 쓰기 전에 패키지 설치 과정에서 메모리가 부족해져 종료된다.

더 효율적인 방법도 있다. 기본으로 제공되는 라이브러리만 써서 처음부터 직접 만드는 것이다. 어떤 AI는 처음부터 이 방식을 선택하지만, 다른 AI는 그렇지 않다. 서로 다른 AI는 서로 다른 접근법을 갖고 있고, 컴퓨터 자원 설정이 어떤 접근법이 성공하는지 결정한다.

다른 평가에서도 확인, 1.5%포인트 차이

연구팀은 이 현상이 다른 평가 도구에서도 나타나는지 확인하기 위해 'SWE-bench'라는 다른 평가를 테스트했다. 기본 메모리부터 최대 5배까지 늘려가며 227개 문제를 테스트했다. 같은 효과가 나타났지만 크기는 더 작았다. 메모리에 따라 점수가 계속 올라갔지만, 5배일 때가 기본보다 1.54%만 높았다. SWE-bench 작업은 메모리를 덜 쓰는 문제들이라 효과가 작았지만, 여기서도 자원 할당이 점수에 영향을 준다는 것을 확인했다.

컴퓨터 자원만이 유일한 문제는 아니다. 연구팀은 같은 AI를 하루 중 다른 시간대에 돌렸을 때 점수가 달라지는 것을 목격했다. 아마도 인터넷 프로그램 연결 속도가 시간대별로 다르기 때문일 것이다. 정확히 측정하진 않았지만, 이는 중요한 사실을 보여준다. "AI의 능력"과 "컴퓨터 환경"의 경계가 하나의 점수로 표현하기엔 너무 애매하다는 것이다.

가장 이상적인 방법은 모든 평가를 정확히 똑같은 컴퓨터 환경에서 실행하는 것이다. 하지만 이게 항상 가능한 건 아니다.

연구팀은 평가 도구가 작업마다 두 가지 설정값을 모두 명시할 것을 권장한다. 하나로 고정하지 말고, 최소 보장량과 강제 종료 상한선을 따로 정하라는 것이다. 하나로 고정하면 여유가 전혀 없어서 잠깐 메모리를 더 쓰는 것만으로도 프로그램이 종료된다.

두 값을 분리하면 프로그램이 갑자기 종료되는 것을 막으면서도, 너무 많은 자원을 쓰지 못하게 제한할 수 있다. 연구팀의 테스트에서 기본 사양의 3배를 상한선으로 설정하니 시스템 오류율이 3분의 2나 줄었고(5.8%에서 2.1%), 점수 상승은 크지 않았다. 시스템 문제는 대부분 해결되면서도 문제가 너무 쉬워지진 않은 것이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI 코딩 평가는 어떻게 진행되나요?

A. AI 코딩 평가는 AI에게 실제 프로그래밍 문제를 주고 해결하게 합니다. AI가 직접 코드를 짜고, 실행해보고, 필요한 프로그램을 설치하는 등 실제 개발자가 하는 일을 시킵니다. 단순히 정답을 맞히는 것이 아니라 실제 작업 능력을 평가하는 것이죠.

Q. 왜 컴퓨터 메모리가 AI 점수에 영향을 주나요?

A. AI가 코딩할 때는 실제로 프로그램을 돌려보기 때문에 컴퓨터 메모리가 필요합니다. 메모리가 부족하면 프로그램이 강제로 꺼지고, 이는 AI 실력과 상관없이 실패로 기록됩니다. 또한 메모리가 충분하면 AI가 큰 프로그램을 설치하거나 여러 가지 방법을 시도할 수 있어서 성공률이 올라갑니다.

Q. 이 연구가 AI 사용자에게 주는 교훈은 무엇인가요?

A. AI를 선택할 때 순위표 점수만 보고 판단하면 안 됩니다. 1~2%포인트 차이는 실제 AI 실력보다는 테스트 환경 차이일 수 있습니다. 실제로 AI를 도입할 때는 내 업무 환경에서 직접 써보고 판단하는 것이 중요합니다. 순위표는 참고만 하세요.

기사에 인용된 리포트 원문은 Anthropic Engineering에서 확인 가능하다.

리포트명: Quantifying infrastructure noise in agentic coding evals

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)


AI 리포터 (Aireporter@etnews.com)

브랜드 뉴스룸