[AI 사피엔스 시대]데이터 부족 극복 기반 '전이학습'

발행일 : 2020-07-21 17:00 업데이트 : 2020-07-21 10:43 지면 : 2020-07-22 16면

딥러닝 알고리즘은 인공지능(AI) 기술을 개발 이전과 전혀 다른 세계로 인도했다. 인간 뇌신경을 모사한 인공신경망을 활용해 학습을 진행, 사람과 비슷한 수준으로 다양한 기능을 구현할 수 있게 했다. 여러 층의 신경망으로 마치 사람이 생각하는 것처럼 다단계 사고과정을 구현, 정교한 결과를 산출할 수 있게 한 결과다. 그 기능은 인간을 초월할 정도다. 다만 풍부한 학습데이터 확보가 필요하다.

문제는 모든 분야에서 풍부한 학습 데이터를 얻는 것이 사실상 불가능하다는 점이다. 데이터가 부족한 분야라면 구현한 AI 모델 성능도 떨어질 수밖에 없다.

최근 전이학습(Transfer learning)이 주목받는 것도 이 때문이다. 전이학습은 딥러닝 한계를 극복할 수 있게 한다. 데이터가 부족하면 빠르고 효과적으로 학습 모델 생성을 가능하게 한다. 차선책이지만 효과는 확실하다.

Photo Image — 전통적인 머신러닝과 전이학습을 비교한 모식도. ETRI 제공

핵심은 이미 만들어 낸 학습 모델을 유사 분야에 재사용하는 것이다. 예를 들면 고양이 관련 데이터가 부족할 때 이미 풍부하게 확보해 놓은 개 관련 데이터를 활용해 고양이 인식 모델을 만드는 식이다.

이것이 가능한 이유는 신경망 계층 구조에서 찾을 수 있다. 범용적으로 쓸 수 있는 기초적인 지식을 담은 층이 있는 반면에 아주 세부적인 내용을 담당하는 층도 있다. 일부 계층에만 조정을 가하면 기존 목적 외에 다른 영역에도 충분히 활용 가능하다는 뜻이다. 이는 사람이 가진 적응력, 유연성을 AI에 부여한다는 점에서 큰 기대를 모은다.

전이학습은 1990년대 중반 기존 학습 지식을 재사용하는 AI 알고리즘 콘셉트로 주목받기 시작했다. 당시 '러닝 투 런(Learning to Learn)'이라는 이름으로 알려졌고, 이후에 전이학습, 생애학습, 메타러닝 등 다양한 용어로 불리게 됐다.

관련 연구는 지속적으로 이뤄지고 있다. 딥마인드는 전이학습 알고리즘 패스넷(PathNet)을 발표했다. 미 국방고등연구사업국(DARPA)은 지난 2017년부터 전이학습으로 새로운 환경에 적응하며, 지속적으로 학습하는 '라이프롱 러닝 머신(L2M)' 연구 프로젝트를 진행 중이다.

활용 분야는 무궁무진하다. 의료 영상 분야가 대표적이다. 구글에서는 이미 의료영상 판독에 전이학습을 적용했다. 유방암과 피부암, 망막변성 등 의료영상 판독에서 성과를 내고 있다. 자율주행차나 로봇 분야에도 활용 가능하다.

국내에서도 관련 연구, 활용이 이어지고 있다. 한국전자통신연구원(ETRI) 산하 AI연구소도 현재 딥러닝 한계를 극복하기 위해 전이학습에 주목하고 있다. 기관 성격에 맞게 원천기술이 주된 분야다. 전이학습의 학습 방법론, 데이터 전이 적용성을 높이는 방안 등을 고심하고 있다.

이윤근 AI연구소장은 “전이학습은 딥러닝의 한계와 비효율을 조금이라도 극복하기 위해 꼭 필요한 기술”이라면서 “핵심 원천기술 연구에 힘쓰고 있다”고 말했다.

전이학습으로 이용자 맞춤형 기술을 구현하는 응용 사례도 얼마든지 있다. 조성호 한국과학기술원(KAIST) 전산학부 교수팀은 도승환 서울대 기계공학과 교수팀과 함께 부착형 장치와 딥러닝으로 생체신호를 측정하는 기술을 개발했다. 전이학습이 핵심 요소로 쓰였다. 매번 사용자 정보를 학습하기 어려운만큼 미리 구현한 기본 모델을 전이학습으로 '보정'하는 방법을 택했다.

조성호 교수는 “빠르고 효율적이라는 전이학습의 장점을 활용하면 사용자 맞춤형 기기를 보다 쉽게 구현할 수 있다”면서 “다양한 분야에서 역할을 할 수 있는 필수 기반 기술”이라고 말했다.

대전=김영준기자 kyj85@etnews.com