Photo Image
<서울대학교 환경대학원 김경민 교수>

지난 2016년, 구글 딥마인드의 "알파고"가 많은 이들을 놀라게 한 이후 "딥러닝"은 사회 각 분야에서 큰 주목을 받게 되었다. 시민사회와 산업계는 물론, 정치계에서도 딥러닝과 같은 인공지능 기술이 사회와 경제에 미칠 영향에 미리 대비해야 한다는 목소리가 높았다. 그러나 학계에서는 딥러닝에 대한 회의적인 시각도 있었다. 비록 딥러닝이 뛰어난 퍼포먼스를 보여줄지라도, 내부의 모형 계수값을 직접 확인할 수 없다는 "블랙박스"적 특성으로 인해, 현상을 수치적으로 모형화해서 설명해야 할 필요가 있는 학술 연구의 측면에서는 한계가 있다는 것이다. 이제부터 딥러닝의 기술적 측면을 간단히 살펴보고, 지금까지의 오해에 대해 짚어보도록 하겠다.

"세상은 선형이 아니다"

딥러닝의 또 다른 이름은 "심층 인공 신경망(Deep Artificial Neural Network)"이다. 이 기술이 인공지능이라 불리는 것은, 물론 사람이 하는 일을 대체할 수 있기 때문이기도 하지만, 근본적으로 사람 두뇌 속 신경망의 처리 과정을 인공적으로 모사한 것에서 출발한 기술이기 때문이기도 하다. 그렇지만 적어도 현 단계에서는, 이것이 진짜 사람처럼 감정을 느끼거나 생명 활동을 한다는 것을 의미하지는 않는다. 모형의 목적이나 구조에 따라 세부적으로는 달라질 수 있으나, 근본적으로 인공 신경망은 "투입과 출력(Input / Output)"으로 구성되어 있다. 빅 데이터를 활용하여 수많은 투입과 출력을 반복시킨 뒤, 주어진 투입에 대하여 가장 정확한 값을 출력시킬 수 있도록 학습시키는 것이다.

딥러닝 이전의 통계학에서도 주어진 투입에 대해 최대한 정확한 값을 출력시키도록 하는 방법이 있었다. 투입과 출력 간의 관계식을 파악할 수 있다면 가능한 것이다. 특히 두 관계가 일직선의 형태를 띠고 있다면 더욱 수월할 것이다.

Photo Image
<전용면적과 아파트 가격의 상관관계 / 서울대학교 공유도시랩>

위 차트는 아파트의 전용면적과 매매가격 간의 관계를 보여주고 있다. 오차가 크긴 하지만, 전체적으로 면적이 넓을수록 매매가격도 상승하는 경향이 있다. 빨간색 점선은 그 추세를 나타낸 것이다. 이런 경우 우리는 주어진 전용면적(투입)만으로 아파트의 매매가격(출력)을 어느 정도 추정할 수 있을 것이다. 물론 실제로 더 정확한 추정을 위해서는 주택의 입지 조건 등 다른 특성도 고려해야 하겠으나, 다른 조건을 고려하지 않았을 때 우리는 빨간색 점선의 수식을 바탕으로 “서울 아파트는 일반적으로 1평 넓어질 때마다 3,891만 원 상승하는 경향이 있다”라는 추정을 해볼 수 있을 것이다.

이렇게 투입과 출력 간의 관계를 일직선으로 표현할 수 있을 때 우리는 그 관계가 “선형”이라고 말한다. 하지만 세상의 변수들은 이렇게 선형으로 나타낼 수 없는 경우가 많다. 아래의 예시를 보자.

Photo Image
<아파트 경과연수와 평당가격의 상관관계 / 서울대학교 공유도시랩>

위 차트는 아파트가 지어지고 나서 경과한 연수(연식)과 평당 매매가격 간의 관계를 나타낸 것이다. 이전과 동일하게 일직선 형태의 추세선도 그려져 있다. 추세선의 수식을 통해 우리는 “아파트가 1년 경과할 때마다 평당 10.6만 원씩 매매가격이 하락한다”라는 추정을 할 수 있을 것이다. 하지만 점들의 모양을 잘 보면, 일정 연식(대략 25년~30년)이 지나면 아파트의 평당 가격이 오히려 다시 상승하는 경향이 보인다. 그 이유는 좀 더 구체적으로 살펴봐야 하겠지만, 재건축 이슈와 같은 다양한 요인이 작용한 것으로 보인다. 하지만 선형 추세선만으로는 그러한 경향을 포착해낼 수 없다. 25년 이상 경과한 아파트들에 대해서도 여전히 연식이 오래될수록 가격은 하락한다고 표현할 수밖에 없는 것이다.

사실 이 예시는 간단한 축에 속하기 때문에, 추세선의 수식을 고쳐서 실제 분포와 유사하게 만들 수 있다. 가령 하락하다가 상승하는 형태이기 때문에 “2차 함수”를 도입할 수도 있을 것이다. 하지만 실제 현실에서는 이보다도 훨씬 복잡하여 도저히 수식으로는 표현할 수 없는 투입과 출력 간의 관계가 많다. 이런 복잡한 변수 간 관계를 몇 개의 숫자로 표현하려는 시도에는 한계가 명확할 것이다.

딥러닝의 “블랙박스”적 특성은 여기에서 기인한다. 투입과 출력 간의 관계를 대표하는 하나의 숫자를 획득할 수 없기 때문이다. 하지만 애당초 하나의 숫자로 표현할 수 없는 복잡한 관계를, 하나의 숫자로 표현하려 하는 시도에는 한계가 있는 것일지도 모른다. 세상은 선형이 아니기 때문이다.

"딥러닝의 능력과 가능성"

딥러닝의 주요 특성은 “자가 학습”과 “패턴 인식”이다. 자가 학습이란, 데이터의 분포를 직접 포착한다는 것이다. 앞서 “경과년수와 평당가의 관계”의 경우, 사람이 직접 “경과년수가 상승할수록 평당가는 하락하다가 어느 지점부터 다시 상승하는 관계야, 그러니 2차 함수와 같은 형태의 함수식을 써봐”라고 지정해주어야 한다. 하지만 딥러닝은 그러한 사전 지정 없이 스스로 분포의 형태를 파악하기 때문에, 아무리 복잡한 관계라도 포착할 수 있다. 단순한 선형 분포를 넘어서, “비트맵 이미지”와 같은 복잡한 입력도 수치화할 수 있기 때문에, 이를 통한 패턴 인식도 가능해지게 된다.

따라서 변수 간의 관계가 복잡할수록, 기존의 방법보다 딥러닝이 빛을 볼 수 있다. 아래는 딥러닝과 선형 회귀분석을 사용하여 아파트 가격을 추정해 본 결과이다. 아파트 가격을 추정하기 위해 양쪽 모형에 “공간적 분포”라는 복잡한 패턴 값을 투입시켜 보았다. 왼쪽이 딥러닝, 오른쪽이 선형 회귀분석이며, 값이 낮을수록 오차가 작아 정확한 예측이 이루어진 것이다. 데이터와 다른 조건은 모두 동일하고 분석 방법만 바꾸었을 뿐인데, 딥러닝 쪽의 오차가 압도적으로 작다는 것을 확인할 수 있다.
 

Photo Image
<참고: MAPE는 Mean Absolute Percentage Error의 약자임>

결론적으로 딥러닝은 “투입과 출력” 간의 관계를 정교하게 모델링하는 기술이다. 일반적인 인식처럼 “사람만 할 수 있는 일을 대신할 수 있는 인공지능”이라는 결론이 틀린 것은 아니지만, 엄밀히 말하면 사람만이 아니라 이미 기존에도 사람을 대체해왔던 분석 방법들 또한 대체할 수 있다. 한편 “입력을 통해 출력을 낼 수만 있고, 그 관계는 수치적으로 확인할 수 없는 블랙박스이다”라는 학계 위주의 인식은 일견 참이라 할 수 있다. 하지만 결국 하나의 수치로 온전히 표현할 수 없는 복잡한 관계를 정확히 표현하기 위한 선택인 것이다. 이러한 선택을 통해 우리는 기존보다 훨씬 정확한 예측력을 확보할 수 있다. 이러한 기술은 자율주행, 자연어 처리(혹은 바둑)와 같이 일반적으로 “인공지능”이라 불리는 분야만이 아니라, 수치적으로 무언가를 예측하는 모든 분야에서 지금 이 순간에도 활약하고 있다.

필자의 딥러닝과의 씨름(?)은 학자로서의 합리적인 '의심'이 '신뢰'로 전환되는 과정이었다. 아울러 수많은 가설과 검증, 수많은 빅데이터 학습과 테스트를 통해 원하는 결과가 내 손에 주어질 때의 희열은 짜릿함을 넘어 일종의 책임감으로 와 닿았다. 이 인공지능 엔진으로 무엇을 할까? 고민 끝에 부동산 가격 예측 모델을 만들어 '리판(REPAN)'이라는 프롭테크 스타트업을 통해 제공해보기로 했다. 정보의 비대칭과 일부 투자자 혹은 투기자 위주로 왜곡된 부동산 시장에도 '기회는 평등하게, 과정은 공정하게, 결과는 정의롭게'가 적용될 수 있을까?

인공지능 엔진과 정부에서 공유해주는 그 많은 부동산 관련 빅데이터를 통해 바가지와 호갱이 없는 시장, 부동산 물건에 대한 납득할 수 있는 합리적이고 객관적인 평가, 소비자와 물건을 정확히 찾아 갈증을 해소시켜주는 부동산 중매, 직장인과 서민도 믿고 소액으로 투자할 수 있는 건전한 투자 방안, 수익성에 대해 고개가 끄덕여지는 근거 있는 분석, 우리나라 부동산 빅데이터 전체 분석을 통해 나오는 그 깨알 같은 정보, 소유자-중개자-소비자-투자자가 함께 뛰놀 수 있는 안전한 플랫폼 등을 제공해주고 싶다면, 이를 통해 참을 수 없는 부동산 시장의 비시스템적 요소들을 조금이라도 해소해보고 싶다면 과욕일까? 딥러닝의 힘, 인공지능의 힘, 빅데이터의 힘을 알고 또 그 힘을 사용할 수 있으면서 아무것도 안 할 수는 없다.

서울대학교 환경대학원 김경민 교수