`빅데이터`로 대변되는 오늘날, 데이터 분석 과정에서 초기에는 대용량의 데이터를 처리해 분석 가능하도록 하는 기술적 처리 과정에 관심이 집중됐다. 하지만 최근에는 기존의 프로세스와 시스템 환경에 `분석`을 통합, 보다 빠르고 향상된 분석 결과를 이끌어 내고자 하는 노력이 진행되고 있다. 또한 급속도로 증가하고 있는 `데이터 홍수` 속에서 어떻게 의미있는 현상을 발견할 것인가 하는 것이 주된 관심사로 부각되고 있다.
다양한 응용 분석솔루션의 개발 및 오픈 소스 분석툴인 `R`의 성능 강화 등은 이를 가속화 시키고 있다. 그럼에도 산더미처럼 쌓인 데이터, 그것도 매 순간 그만큼씩 늘어나는 데이터 환경에서 어떻게 의미 있는 시그널을 발견해 낼 것인가 하는 부분에서 기업은 벽에 부딪히는 경우가 많다. 시그널은 어떤 문제를 해결하기 위해 원천데이터에서 찾아낸 패턴을 일컫는 말이다.
빅데이터는 대용량으로 계속해서 발생하고, 개별적이며 비정형화된 데이터의 특징을 갖고 있다. 이러한 빅데이터 패턴을 어떻게 인지해 속도에 뒤쳐지지 않게 적절한 의사 결정을 할 수 있는가 하는 문제가 기업들의 주요 과제다. 더 이상 데이터를 수집해 창고에 쌓아 두었다가 필요한 시기가 되면 요건을 정의해 추출하고 분석하는 방식으로는 문제를 해결하는데 한계에 이르렀다고 판단한 것이다.
◇데이터, 의미있는 시그널로 변환해야
지금까지 예측 사고와 운영의 효율성을 가져올 수 있다고 판단돼 더 많이 저장해 온 데이터들은 오히려 점점 복잡해지면서 현상을 발견하고 대응하는 것이 더 어려워지게 된 측면도 있다.
데이터 분석으로 미래를 예측하기 위해 일반적으로 예측모형을 개발해 활용한다. 이러한 예측 모형이 유용하게 적용되려면 많은 양의 데이터를 필요로 할 뿐 아니라 적절하게 분류되고 변화를 반영할 수 있는 데이터가 필수적이다. 모형의 각기 다른 시나리오를 효율적으로 테스트할 수 있도록 하는 환경도 필요하다. 또한 모형에 의해 도출된 예측을 평가하고, 이를 의사결정에 반영할 수 있도록 하는 시스템과의 유기적인 연계 역시 중요하다.
미국의 빅데이터 분석가 그룹인 오페라솔루션의 시그널분석 시스템은 이러한 기업들의 다양한 고민을 해결하는 데 좋은 대안으로 평가받고 있다. 오페라솔루션은 최근 SAP의 메모리 데이터베이스 기술인 하나(HANA) 데이터베이스(DB)와의 결합으로 데이터 및 분석 처리량을 획기적으로 끌어 올렸다.
특히 신호 대 잡음비(Signal-to-noise ratio)가 높은 빅데이터 분석에 있어서는 매우 중요하다. 빅데이터의 특성상, 데이터 자체를 그대로 분석에 활용해 의미를 도출하는 것은 어렵거나 불가능하다. 데이터를 의미있는 시그널로 변환해야 한다. 시그널은 빅데이터에 내재돼 있는 요인들과 패턴을 발견해 유용하고 정확하며 자동화시킬 수 있는 형태로 변화시킨다. 그 과정을 통해 우리는 빅데이터의 많은 노이즈 가운데에서 문제 해결을 위한 실마리를 찾아낼 수 있게 된다.
◇빅데이터 분석 사례
영국의 한 항공사는 각종 채널 및 조사 등으로 수집되는 데이터를 포함, 38개의 내·외부 데이터 소스에서 고객 관련 데이터를 취득해 1442개의 테이블 안에 1만여개의 데이터 항목을 보유하고 있었다. 이 항공사에서는 출발 30일 이내에만 고객이 좌석을 지정할 수 있었는데, 어느 정도 추가 비용을 지불하면 예약 시점에도 본인이 선호하는 좌석을 선점할 수 있었다. 마일리지 보너스 프로그램 등급에 따라 어떤 고객에게는 특정 서비스가 무료로 제공되기도 했다. 이 항공사는 데이터 분석을 통해 새로운 관점으로 고객을 세분화해 부가 수익을 확보하고자 했다.
이에 오페라솔루션의 프로젝트팀은 우선 빅데이터의 노이즈 제거 작업에 주력했고, 서로 다른 데이터 상관관계와 레벨, 고객클러스터 등을 감안해 300여개의 유의미한 모델링 변수를 추출, 최종 모델링을 통해 고객별 제안 프로그램을 수립했다. 프로젝트팀이 추출한 시그널의 단계별 예시를 살펴보면 △데이터 형태대로 사용했던 나이, 성별, 결재카드의 종류 등의 데이터부터 △함께 여행한 동반자의 수·성별·나이 등의 조합 데이터 △해당 항공권 구입 목적 △최근 1년간 휴가 목적으로 항공권을 구입했던 횟수 △전체 항공 이용 중 휴가 목적으로 항공권을 구입한 비율 △항공권의 이용 트렌드 등이 있다.
빅데이터의 또 다른 특징은 많은 데이터를 짧은 시간에 검토해 즉각적인 의사결정을 내려야 하는 영역에도 적용될 수 있다. 일본의 한 자동차 관련 업종의 회사는 연간 25만대 가량의 중고 차량을 경매 방식을 통해 구입하는 비즈니스 모델을 가지고 있었다. 하지만 각 차량에 대해 딜러가 평가해 가격 입찰하는 과정에 사용할 수 있는 시간은 단 1분뿐이었다. 그 시간 동안에 딜러가 검토해야 할 차량 관련 정보는 여러 군데 산재돼 있었고 다양한 형태의 데이터로 존재했다. 모든 정보를 취합해 즉각적인 결정을 내려야 하는 비즈니스 문제를 가지고 있었다. 솔루션을 제공하기 위해 데이터 분석가는 최근 유사 차량의 매각 데이터를 분석하고 각 차량의 유사점과 차별점의 정도를 분석해 최적의 차량 가치를 예측해 내는 각 단계의 모델을 개발했다. 이렇게 예측된 가격은 실제 매각된 가격과 결과를 비교해 지속적으로 모델을 업그레이드했다.
◇서비스형 분석(AaaS) 방식 대두=
보다 빨리 발견하고 결과를 빨리 적용하기 위해서는 사람의 경험과 노력 외에도 업종별 또는 영역별로 특화된 알고리즘과 시스템이 필요하게 된다. 이들 시스템은 급격하게 변화하는 비즈니스 환경에서 필요시 데이터 소스로부터 예측모형에 이르기까지 모든 요소들은 그때마다의 특정 비즈니스 이슈의 해결을 위해 변경 적용할 수 있을 만큼 유연하게 설계돼야 한다. 이러한 특징을 반영해 `서비스형 분석(AaaS, Analytics as a Service)` 방식, 즉, 다양한 수준의 고객 요구와 인프라에 맞춰 분석 서비스 및 플랫폼을 제공하는 기업들도 늘고 있다.
빅데이터 관심이 날로 증가하고 있다. 선진국의 사례를 보면, 많은 기업들이 지난 몇 년간 화두가 됐던 하둡 기반의 빅데이터 처리 인프라를 앞다퉈 준비한 데 반해 분석 능력은 갖추지 못해 막상 축적된 데이터를 어떻게 활용할지 모르는 경우가 많았다. 빅데이터의 처리는 중요한 과정이기는 하지만, 분석을 통해 적절한 의사결정을 내리는 과정이 뒷받침되지 못할 경우 데이터 홍수 속에서 또 하나의 카오스 상황에 빠질 수밖에 없다는 사실을 명심해야 한다.
김민정 에프케이비씨지, R테크센터 대표 mjk@fkbcg.com