‘빅 데이터(Big Data)’ 시대가 도래하면서 빅 데이터를 분석하는 기술에 대한 관심이 최근 뜨겁다. 특히 기하급수적으로 데이터를 생산하는 페이스북, 트위터, 구글 등에서 오픈소스 통계분석 프로그램인 ‘R’를 핵심 분석 엔진으로 활용하면서, 이 ‘R’ 프로그램이 분석 업계 최대 이슈로 떠오르고 있다.
미국 등에서는 데이터 분석엔진으로 ‘R’가 대학 교육의 표준으로 자리 잡았다. 구글에서는 ‘구글 R 스타일 가이드’나 구글의 각종 API 등을 ‘R’ 패키지 제품을 통해 사용 가능하게 하고 있다. 최근 열린 오라클 오픈월드 콘퍼런스에서도 오라클 데이터 분석 전용 애플라이언스에 ‘R’를 적용했다고 전격 발표했다. 이처럼 ‘R’가 빅 데이터 시대 분석 소프트웨어의 표준으로 자리잡아가고 있다.
지금까지 통계분석 소프트웨어로는 IBM에 합병된 SPSS와 비즈니스 인텔리전스 업계의 최강자인 SAS가 대표적이다. ‘R’는 최근 이들 업체들까지 위협할 만큼 강력해졌다는 게 업계 전문가들의 평가다.
더욱 흥미로운 것은 ‘R’가 세계적으로 큰 관심을 얻자 SPSS의 설립자 중 한 명인 노먼 나이 스탠퍼드대학 교수가 R의 기업용 버전인 ‘레벌루션 R’를 개발해 상용화한 ‘레벌루션애널리틱스(Revolution Analytics, 이하 RA)’라는 회사를 설립했다는 점이다.
노먼 나이 교수는 통계 분석 소프트웨어의 원조인 SPSS를 개발했다. SPSS는 현재까지도 통계 분석 툴의 대명사로 통한다. 이처럼 초기 분석 및 통계 분야에서 커다란 이정표를 세운 노먼 나이 교수가 ‘R’를 기반으로 한 새로운 분석 시장 중심에 또다시 자리하고 있다. 그의 행동에 업계가 주목하는 이유다.
지난 달 말 최대우 한국외국어대학교 통계학과 교수가 68세 나이의 노먼 나이 교수를 미국 라스베이거스에서 만났다.
△최대우 교수=대학에서 통계 관련 수업을 들어본 사람이라면 SPSS가 낯설지 않다. 개인적으로도 대학교 학부 과정에서 SPSS의 사용자 설명서를 교과서 삼아 공부하며 꿈을 키웠다. 이렇게 만나게 되어 정말 영광이다.
▲노먼 나이 교수=SPSS 사용자 설명서 작성에 아이오와대학의 한국인 교수도 참여했었다. 그리고 내가 쓴 또 다른 저서의 공동저자로 정치과학을 전공한 한국인 여자 교수가 있다. 내가 집필한 자랑스러운 책들에 모두 한국인이 같이했다. 비록 한국에 가본 적은 없지만 항상 친근함을 느낀다. 또 이렇게 한국에서 가장 유명한 산업지인 전자신문을 통해 한국인들과 만나게 돼 더욱 기쁘게 생각한다.
△최 교수=정치학도였던 것으로 알고 있는데, 어떻게 통계 개발 툴을 개발하게 된 것인가. SPSS를 개발하게 된 배경이 궁금하다.
▲나이 교수=SPSS를 개발하게 된 동기는 나의 전공인 정치행동과학에서 복잡한 데이터를 분석하기 위해서였다. 당시로는 수작업으로 계산할 수 없는 데이터였다. 하지만 지금의 기준으로 보면 개인 노트북으로도 충분히 처리할 수 있는 규모였다. SPSS 창업 시절 가장 중요하게 생각한 것은 편리한 문서화와 스마트한 그래픽사용자환경(GUI), 데이터 시각화 등이었다. 사용자 설명서뿐 아니라 개발과 관련된 모든 문서화 작업에 정성을 기울였다. 알다시피 SPSS는 어떤 통계 패키지보다 편리하고 세련된 GUI를 제공하고 있다. 그래프도 그대로 보고서에 사용할 수 있을 정도로 완벽하다.
△최 교수=많은 사람들이 SPSS를 매각하고 난 뒤 ‘R’를 중심으로 하는 RA의 CEO가 됐다는 것에 대해 관심이 높다. 오픈소스 ‘R’를 기반으로 한 새로운 사업에 뛰어든 이유는 무엇인가.
▲나이 교수=확장성과 유연성을 갖춘 ‘R’가 미래 분석의 핵심일 수밖에 없기 때문이다. 머지않아 하나의 노드로 데이터를 처리할 수 없는 시대가 올 것이다. 일부에서는 이미 도래했다. ‘R’는 다수의 노드를 동시에 사용해 다중처리가 용이하다. 즉, R의 태생이 인메모리(in-memory) 방식이라 하둡의 분산 프로세싱 프레임워크인 맵리듀스(MapReduce) 방식을 적용하기 쉽다. 맵리듀스는 빅데이터를 처리할 때가 필수적으로 활용된다.
RA가 개발한 ‘레보스케일(RevoScale) R’는 하나의 컴퓨터 내 여러 코어를 동시에 사용하며 인메모리 방식뿐 아니라 파일 시스템을 활용, 데이터 처리 능력을 극대화했다. 그 외에 하둡 환경에서 R를 사용할 수 있는 패키지도 지난 9월 발표했다. R의 유연성은 이미 알려진 사실이다. 그 유연성으로 많은 소프트웨어 벤더들이 R를 분석엔진으로 포팅하거나 RA와 협력할 수 있다.
△최 교수=다소 대답하기 곤란한 질문일 수 있다. 업계에선 SAS의 회장인 짐 굿나잇 회장과 당신을 놓고 직접적인 비교를 많이 한다. 최근의 미국 언론 혹은 블로거들은 과거 한때 통계 패키지의 일인자였던 SPSS가 데이터에 대한 일부 프로그래밍 기능을 제공한 SAS에 시장을 내준 상황에 비춰, 유연성이 훨씬 우수한 프로그래밍 언어인 ‘R’가 SAS의 강한 도전자라고 얘기한다. 이러한 상황에 대해선 어떻게 생각하는가.
▲나이 교수=짐 굿나잇 회장은 비즈니스적으로 천재적인 사람이다. SAS로 인해 SPSS는 22년간 2인자일 수밖에 없었다. 그러나 미래에 필요한 분석 환경은 분명 달라질 것이고 달라지고 있다. 앞으로 분석 시장엔 많은 변화가 있을 것이다.
△최 교수=새로 설립한 RA에 대한 이야기를 더 듣고 싶다. RA에 대한 소개와 현재 규모, 향후 제품 로드맵에 대해 설명해 달라.
▲나이 교수=RA 본사는 미국 캘리포니아 주 팰러앨토에 위치해 있다. 연구개발은 시애틀에 근거지를 두고 있다. 영업 사무실은 뉴욕에 곧 오픈할 예정이다. 또 훌륭한 개발자들이 각자의 근거지를 중심으로 가상 오피스 체계로 활동하고 있다. 오픈소스 ‘R’의 기본사상이자 정신이 각자 개발한 결과물을 공유하는 것이다. 실제로 ‘R’의 공유가 상당히 용이해 개발자들이 흩어져서 활동해도 전혀 문제가 없다.
RA는 은행, 투자은행, 보험, 제약, 제조, 유통업 등 다양한 분야의 기업들을 주요 고객으로 빠르게 확보해 가고 있다. RA 제품은 지속적으로 고성능 컴퓨팅, 특히 맵리듀스에 근간한 빅 데이터 처리에 집중하고 있다. 그리고 그래픽이나 계산결과를 아름답게 표현하는 것에도 많이 노력하고 있다. 이는 SPSS를 운영할 때도 마찬가지로 중요시했던 부분이다. 올해 말 출시할 예정인 ‘레보 GUI R(Revo GUI R)’에는 일종의 GUI 개발을 용이하게 하는 스크립트 기능을 제공할 것이다. 이 스크립트는 특정 비즈니스에 특화된 솔루션 개발을 가능하게 한다. 그래픽 기능은 ‘R’에서 강력한 그래픽 패키지 중 하나인 ‘gg플롯(ggplot)’을 개발한 해들리 위크햄과 현재 제품 상용화를 준비하고 있다.
△최 교수=SPSS의 사용자 설명서는 다른 통계 패키지의 사용자 설명서와는 달리, 통계이론이 잘 정리되어 교과서로 사용할 수 있었던 것 같다. 당신이 추구하던 제품화에 대한 남다른 철학이 깃든 결과로 해석된다. RA 제품에 대해서도 궁금증이 많다. 최근 IBM 네티자의 인데이터베이스(in-databse) 어낼리틱스 엔진으로도 RA 제품이 활용됐다. 만약 또 다른 벤더들, 그 벤더가 IBM의 네티자와 경쟁하는 업체일지라도 RA 제품과 협력할 계획이 있는가.
▲나이 교수=현재로는 밝힐 수는 없지만 타 벤더와의 협력을 계속 진행 중이다. 최근에는 오라클 오픈월드 콘퍼런스에서 ‘R’의 활용에 대한 데모가 진행됐다.
△최 교수=전통적으로 SAS와 관계가 친밀한 테라데이터도 최근 ‘R’와의 연동을 가능하게 하는 R 패키지를 발표했다.
▲나이 교수=이것은 전혀 이상한 현상이 아니다. SPSS를 합병한 IBM이 경쟁제품이 될 수 있는 RA 제품을 채택한 예도 있지 않는가(웃음). 비용에 비해 우수한 ‘R’의 고효율성은 큰 매력일 수밖에 없다. 그로 인해 사용자 고객들은 더 넓은 선택권을 갖는 것이고, 벤더들 입장에서는 더 많은 제품을 확보할 수 있는 것이다.
△최 교수=RA 제품들은 결국 오픈소스 ‘R’를 근간으로 하고 있다. 즉, RA도 R의 생태환경(eco-system) 조성에 참여해야 할 것 같은데, 관련 계획이 있는가.
▲나이 교수=당연히 있다. 그 중 하나는 RA 제품 중 분산처리에 바탕을 둔 대용량 처리 패키지인 ‘레보스케일 R’에 분석 알고리즘을 포팅할 수 있는 기술문서와 관련 패키지를 파트너 중심으로 공개할 계획이다. R는 현재 3400여개의 패키지들이 모든 이들에게 공개돼 있다. 패키지 수는 매년 증가하고 있다. 이와 같이 RA의 제품 포팅 역시 여러 개발자의 참여에 의해 동반 성장하고 싶은 것이 목표다.
△최 교수=R에 대해 잘 모르는 많은 사람들은 상업용 패키지에 비해 검증이 덜 됐고, 기업에서 사용하기에는 사후 관리 측면에서 많은 문제가 있지 않나 우려한다.
▲나이 교수=검증이라 함은 R와 상업용 패키지의 신뢰성을 이야기하는 것인가, 아니면 성능을 이야기하는 것인가. R는 모든 연구의 기본이다. 연구의 기본이라는 것은 그 결과의 신뢰성이 이미 확보되었다는 것을 의미한다. 그리고 성능이 보장되지 않았다면 많은 미국의 기업들, 특히 빅 데이터를 다루는 인터넷 및 소셜네트워크서비스(SNS) 기업들이 R를 사용하지 않았을 것이다. 상업용 소프트웨어는 많은 비용을 들여 테스트하지만, 공개 소프트웨어는 다수의 사람이 사용하고 각자가 테스터 역할을 한다. 이상이 있는 경우, 패키지 개발자에게 리포팅이 되고 신속히 조치가 취해진다. 만약 해당 패키지의 평판이 좋지 않다면 커뮤니티 내에서 사라질 수밖에 없다. 상업용 버전을 제공하는 RA의 존재 이유는 바로 사후관리와 체계적인 기술적 지원을 위해서다.
△최 교수=마지막으로 한국의 분석 시장에 대해서는 어떻게 전망하는가. 한국은 이미 SAS가 기업용 분석 시장을 장악했다고 해도 과언이 아니다. ‘R’의 바람이 한국에도 크게 영향을 미칠 것으로 보는가.
▲나이 교수=RA는 아시아 시장 중요성을 인지해 유럽보다 빨리 아시아 시장 파트너를 선정했다. 파트너 역량을 평가하던 과정에서 가장 놀라운 곳이 바로 한국이었다. 통계학 박사가 다수 확보되어 분석에 대한 이해도가 높고, 또 창의적인 분석이 가능한 역량을 갖추고 있었다. 싱가포르, 일본 등지보다 비즈니스 역량이 우수했다. 그리고 무엇보다 최근 3개월간 ‘R’에 대한 관심이 급고조되어 한국의 R 사용자 그룹이 관련 사용자 모임에 후원을 부탁하는 등의 역동적인 움직임을 보이고 있다. 한국이 분석 시장에서 아시아 지역 국가의 중심이 될 것이라 기대한다.
◆프로필
<노먼 나이 교수>
1943년생으로 스탠퍼드대학에서 정치과학으로 박사학위를 취득했고, 시카고대학교 정치학과 교수로 재임했다. 이 시기에 가장 빛나는 학문적 업적을 이뤘을 뿐 아니라 SPSS를 창시했다. 1998년 시카고대학교에서 스탠퍼드대학교의 연구교수로 자리를 옮겼다. 2009년 7월 SPSS를 IBM에 매각하고 같은 해 10월, 오픈소스 ‘R’ 기반의 소프트웨어 회사인 레벌루션애널리틱스(RA)의 CEO로 취임했다.
<최대우 교수>
현재 한국외국어대학교 통계학과 교수로 서울대 계산통계학과를 졸업했다. 미국 룻거스대학교에서 통계학 박사를 취득했다. 15년간 금융, 제조, 통신, 공공 등 다양한 산업군에서 60건 이상의 분석 관련 프로젝트나 자문을 수행했다.
성현희기자 sunghh@etnews.com