[김주한 교수의 정보의료·디지털 사피엔스]무한 원숭이 in-the-loop 학습과 챗GPT

Photo Image

“100만마리 원숭이가 초당 10타씩 무작위로 타자를 치다가 우연히 셰익스피어의 '햄릿'을 완성할 수 있을까?” 이 '생각실험'은 1913년 프랑스 수학자 에밀 보렐이 제안했다.

이를 '시뮬레이션 실험'으로 구현한 구글의 '타이핑하는 원숭이' 가운데 최고기록은 셰익스피어의 희곡 '사랑의 헛수고' 첫 17글자를 타이핑한 원숭이다.

4830억년이 걸린다. 우주의 수명보다 길다.

타자기에 50개의 키가 있다고 가정하면 원숭이가 'MONKEY'라는 단어를 칠 확률은 50분의 1을 6번 곱한 156억분의 1이다. 156억분의 1 확률이니 원숭이 150억마리를 동원하면 해볼 만해 보이지만 6자를 8자로 두 글자 늘리면 39조625억마리로 늘어난다. '햄릿'은 약 20만 글자. 50의 '8제곱'이 39조를 넘으니 50의 '20만 제곱'은 '쓸데없이 큰 숫자'다. 우주를 구성하는 모든 입자도 10의 '120제곱'개 정도라니 글자의 조합으로 생성 가능한 '언어공간'은 무한히 크다.

이제 원숭이가 타이핑을 시작하면 '자동완성' 기능으로 비슷한 단어로 자동완성해 주자. 입력은 빨라진다. 원숭이의 무작위 타이핑이 '말 되는' 단어의 무작위 조합으로 변환된다. '자동완성' 기능의 도움으로 원숭이는 드디어 단어를 말하기 시작한다. 원숭이에게 필요한 '단어'는 몇 개쯤일까? 사람도 웬만한 의사표현에는 약 500개 단어면 충분하다. 원숭이는 우리보다 섬세하다치고 넉넉히 1000개라 하자. 한 문장을 구성하는 단어가 평균 10개라면 원숭이의 1000개 단어로 생성 가능한 문장은 '1000의 10제곱=10의 30제곱' 가지다. 그럼 원숭이의 의사표현에 필요한 '문장'은 몇 개쯤일까? 100만가지 이상 표현이 필요할까? 아주 섬세한 원숭이라면 몰라도 100만가지면 차고 넘칠 것이다. 골치 아픈 산수는 여기까지만 하자. 요점은 원숭이의 100만=10의 6제곱가지 문장은 단어 1000개로 생성 가능한 10의 30제곱가지 문장의 “'10의 24승분의 1'로 급격히 쪼그라든다”는 점이다. 챗GPT의 사전훈련(Pre-training)에 담긴 비밀이다.

기존 인공지능(AI)은 '햄릿' 작성에 필요한 50의 '20만 제곱' 공간을 통째로 학습하려 시도했고 무수히 실패했다.

챗GPT는 단어를 '자동완성'하고 인터넷에 있는 문장과 비교해서 대부분 도저히 '말이 되지 않는' '돌연변이' 문장을 잘라내 탐색할 언어공간을 급격히 좁혔다. 이제 '20만 제곱'이 아닌 '100 제곱'의 좁은 공간만 탐색하면 된다. 노엄 촘스키의 '변형생성문법'이란 이처럼 '말이 되는' 극소수의 문장과 '말이 되지 않는' 대부분의 '돌연변이 문장'을 구별하게끔 진화 과정에서 우리의 DNA에 코딩된 '언어 도구'다.

챗GPT는 드디어 '문장스럽게 조합된 단어'들을 출력하기 시작했다. 원숭이가 챗GPT로 출력한 '말 되는' 문장이 '먹을 것 주세요'면 먹이를 주고 '추워요'면 히터를 틀어 주자. '무서워요'면 안아 주자. 이 '원숭이-in-the-loop' 학습이 진행되면 원숭이는 점점 더 능숙하게 타이핑해서 '사람의 언어'로 사람들과 대화하기 시작한다. 더이상 울부짖거나 철창을 긁어 대지 않아도 된다.

그럼 드디어 영화 '혹성탈출'의 '말하는 원숭이'가 탄생한 것일까? 챗GPT는 드디어 '지능'을 갖췄을까? 아니다. 버튼 몇 개짜리 컴퓨터로 원숭이와의 대화에 성공한 실험은 이미 차고 넘친다. 레고블록을 닮은 '아가용 컴퓨터'도 다 똑같다. 여기서 지능을 갖춘 자는 '언어 도구'인 챗GPT가 아니라 바로 원숭이와 아가다.

춥거나 배고프지 않은 챗GPT가 지능을 획득할 일은 없다.

챗GPT라는 '언어 도구'는 그동안 '말 못하고 글 못 써서 슬퍼하던 분들께 더 큰 축복이다. 시력을 되찾아 준 안경이나 보조 지팡이처럼 이제 누구나 편히 쓸 수 있도록 값싸게, 널리 보급할 일만 남았다.

김주한 서울대 의대 정보의학 교수·정신과전문의 juhan@snu.ac.kr