[김종흔의 beyond 빅데이터] 빅데이터에 관한 오해

Photo Image

“도대체 몇 TB부터 빅데이터라고 할 수 있나? ” 빅데이터 관련 세미나에서 참석해서 강의를 하다 보면 가장 많이 받는 질문 중 하나이다..

한비자 내저설편에 삼인성호란 말이 있다. 이 말은 “사람 셋이면 호랑이도 만들어낸다 ”는 뜻이다. 여럿이 같은 말을 하면 없던 호랑이도 만들 수 있다는 것인 데 이는 틀린 얘기도 여러 번 듣다 보면 곧이 들린다는 비유이다. 자 그럼 지금 호랑이는 무엇일까? 바로 빅데이터라고 할 수 있다. 빅데이터라는 단어를 들었을 때 사람들은 데이터의 양적인 면에 치중하다 보니 빅데이터는 대용량 데이터라는 인식으로 굳어져 버린 것 같다.

하지만 빅데이터가 화두가 된 것은 그저 데이터에 양에만 주목하였기 때문이 아니다. 한 기업을 예로 들어 보겠다. 기업에는 수많은 데이터들이 존재한다. 그리고 이들 데이터들은 각각의 업무에 다양하게 활용되고 있고 이들로부터 수 많은 데이터들이 가공되고 또 쌓여가고 있다.

그래서 이렇게 쌓여가는 정보들로 인해 기업들은 다음과 같은 문제에 부딪친다.

첫째, 기업 외부에도 엄청난 데이터가 쌓여가고 있다는 것

둘째, 이 데이터들은 실시간으로 쌓이고 있다는 것

셋째, 이 데이터들의 포맷 또한 음성, 사진, 비디오 등으로 다양화되고 있다는 것

그런데 이런 데이터들을 검색하고, 수집하고, 저장하고, 분석하고, 보여주는 기술이 없었거나 그 기술적 완성도가 낮았다. 따라서 이런 새로운 데이터들을 그 동안 활용할 수가 없었고, 바로 이러한 이유들 때문에 빅데이터가 주목을 받게 된 것이다.

다시 말해 빅데이터라는 호랑이는 데이터의 용량만을 콕 집어 의미하는 것은 아니다. 기존에 기업 내부에 쌓여있던 텍스트 기반 데이터에서는 파악하기 힘든 기업 외부 데이터, 음성, 사진, 비디오 등등의 소위 비정형 데이터를 아울러 의미하는 것이다. 즉 빅데이터는 기존 대용량 데이터 뿐 아니라, 기존 컴퓨팅 기술로는 다룰 수 없었던 다양한 포맷의 데이터들을 의미한다. 따라서 이러한 데이터 모두를 검색 (Search), 수집 (Collection), 저장 (Storage), 분석 (Analysis), 보여주는 (Visualization) 모든 기술을 빅데이터 분석 기술이라고 한다.

Photo Image

자, 이 쯤에 몇 사람들은 이렇게 말을 하곤 한다. “지금 우리 DB에 쌓여있는 데이터도 제대로 활용을 못하고 있다.” 그러나 기존 DB에 저장되어 있는 과거의 데이터와 지금도 어딘 가에 실시간으로 쌓여가고 있는 데이터는 그 성격과 사용 용도가 다르다. DB에 저장되어 있는 과거 10년간의 고객 정보나 실시간으로 SNS에 올라오는 사진, 콜센터 직원과 고객과의 상담 녹취록은 각기 그 성격과 담고 있는 정보가 다르다. 똑같은 된장찌개라도 그 재료가 다르면 다른 맛이 나는 것과 마찬가지이다. 데이터도 그렇다. 태생과 성격이 다른 데이터는 사용자에게 다른 방향을 제시해준다.

기업의 법무팀 또는 로펌의 예를 들어보겠다. 소송에 필요한 자료는 기존 DB에서 얌전히 기다리고 있지 않고 있다. 임직원의 이메일, 음성 녹취록, 또는 인터넷에 올라오는 기업 평판과 이미지, 그 외 다양한 계약서, 보고서 등이 모두 수집/분석 대상이 된다. 따라서 이러한 데이터들이 수집/ 검색/ 분석되었을 때 나타나는 경우의 효과는 기존의 소송 준비 방법과는 완전히 다른 차원의 승소율을 가능케 한다.

의료• 헬스케어 분야도 소위 빅데이터를 활용한 연구/분석이 활발한 산업군이다. 당장 의사가 기록하는 전자의무기록(EMR)을 비롯해 개인진료차트, 의료 통계, 의사의 임상노트, 병원수납시스템 등 엄청난 양의 의료 데이터가 매일 같이 쏟아지고 있다. 진료 및 연구 시 기존 DB에서 찾기 힘든 환자 임상정보들이 담겨있는 EMR과 같은 비정형 데이터들을 기존 정형 데이터와 함께 활용할 수 있다면 - 이를 통해 새로운 정보를 발견할 수 있다면 - 의료 연구, 질병의 진단 및 더 나아가 새로운 질병의 확산을 예측하거나 기존의 질병을 사전 예방하는 데 큰 도움이 될 것이다.

Photo Image

데이터 분석을 강조한 마이클 루이스의 책 ‘머니볼’에서, 실력있는 선수들을 다른 구단에 뺏기기 일수인 가난한 프로야구단 단장 빌리는 "우리 같은 가난한 팀이 살아남기 위해서는 우수 선수를 선발하는 새로운 방법을 찾아야 한다"라고 말했다. 즉, 기존 방식과는 다른 방법을 찾아야 하는데, 남들이 미처 보지 못했던 혹은 무시했던 내용들을 찾는 것은 데이터 용량의 문제가 아니다. 기존에 관심 대상이었던 데이터 외의 새로운 데이터도 찾아야 한다. 데이터가 몇 백 테라바이트(erabyte)냐, 또는 몇 페타바이트(Petabyte)냐는 그 다음 문제이다.

대용량만 강조되었던 ‘빅데이터’에 대한 오해가 풀렸기를 바란다.김종흔 kjhhpk@gmail.com 현재 HP SW사업부에 근무하고 있으며, 빅데이터와 클라우드가 현재 기업들의 Business Paradigm을 완전히 바꿀 것이라고 생각하며, 기업들이 빅데이터를 바르게 이해하고 활용할 때 인간을 이롭게 하는 기술 혁명이 일어날 것이라고 믿고 있다.


브랜드 뉴스룸