박근한 NHN엔터테인먼트 기술연구센터장은 “알파고에 비하면 한돌은 상대적으로 열악한 장비로 개발했다”며 “조금 더 효율적으로 개발하는 방법을 고민했다”고 말했다. 박근한 센터장은 인공지능 관련 개발을 총괄하고 있다.
구글은 데이터와 장비가 충분해 기보를 대량으로 주입할 수 있다. 하지만 한돌은 상대적으로 열악한 환경에서 개발됐다. 효율화 작업을 통해 문제를 해결했다. 박 센터장은 “구글 장비 몇십분의 일을 가지고 만들었다”고 덧붙였다.
한돌 1.0 버전은 사람이 둔 다양한 기보로 학습한다. 2.0은 자가대국을 통해 스스로 학습한다. 2.0은 1.0보다 우수한 뉴럴 네트워크를 사용했다. 좀 더 커지고 복잡한 구조다. 커진 규모에 맞게 양질 데이터를 입력해야 한다.
박 센터장은 “사람이 쓴 기보 3~40만 개보다 AI 끼리 대국한 기보가 더 질 좋은 데이터”라고 설명했다. 이렇게 훈련시켜 성능이 좋은 모델을 골라냈다. 박 센터장은 “이 작업이 없었다면 10년, 20년이 걸릴 수도 있다”고 전했다.
효율화 작업은 AI 인재·데이터 수급 어려움으로 말미암는다. AI 개발은 많은 데이터가 필요하다. 그러나 개인정보보호 관련 규제로 민간 기업이 데이터 수집하는 데 어려움이 많다. 의료데이터 같은 경우 접근조차 힘들어 시작도 못 하는 경우가 많다. 외국 데이터를 이용하는 경우도 많다.
박 센터장은 “데이터 수집이 AI 개발에 가장 어려운 부분이다”라며 “우리는 다행히 기존 서비스 중에 얻을 수 있는 데이터가 꽤 있었다”고 주장했다. 그는 이어 “개인정보가 조금이라도 포함되면 활용할 수 없으니 아쉽다”고 덧붙였다.
AI 인재 유치에 대한 어려움도 토로했다. 박 센터장은 “현재까지 AI를 전공한 우리나라 인재 수가 너무 적다”며 “나오는 사람은 한정돼 있는데 뽑으려는 곳은 많아 수급이 어렵다”고 전했다.
현재 AI 인재 육성을 위한 자체 교육을 진행하고 있다. 내부 스터디 그룹을 만들고 간단한 프로젝트를 연구한다. 외부에서 강사를 초청해 일주일에 한 번 강의를 진행하기도 한다. 박 센터장은 “특정 부서만 AI를 다루는 게 아니라 모든 개발자가 텐서플로우 같은 개방된 프레임 워크나 툴을 다룰 줄 알아야 AI 인력 문제 해결할 수 있다”고 강조했다.
박 센터장은 “AI 개발은 연구자로서는 천지개벽할 일이지만 사용자는 아직 별다른 체감 못 할 수 있다”며 “현재 데이터를 정형화해 수치화하고 있다”고 설명했다. 이어 그는 “당장 내일 뭔가 바뀌지는 않겠지만 이용하지 못했던 기술이 조금씩 등장할 것”이라고 덧붙였다.
김묘섭 수습기자 myo@etnews.com