고객들을 더욱 잘 이해할 수 있게 해주며 활용 분야가 국방, 에너지, 제조, 유통 등 무궁무진하다는 빅데이터. 빅데이터 환경에서는 기존 데이터 관리 체계와 원칙을 적용할 수 없는 부분들도 있다. 데이터 계층을 먼저 설계하고 모으는 기존의 방식이 적용되질 않는다. PC월드가 `빅데이터에 대해 CIO가 알아야 할 5가지 주제`라는 칼럼을 게재했다. 이를 요약하면 다음과 같다. #1. 빅데이터 그 자체에 대해 생각하기=빅데이터 분석은 야후나 구글, 트위터 등 대형 웹서비스 업체들로부터 시작되었지만 기업들에게도 중요해지고 있다. 작은 헤지펀드 기업이 수 테라바이트의 데이터를 갖고 있을 수 있다. 앞으로 수년 내 헬스케어, 공공, 유통, 제조 등 많은 산업 분야에서 더욱 많은 데이터를 분석함으로써 재무 호전을 기대할 수 있다. 또한 빅데이터는 하둡과 불가분의 관계다. 트랜잭션 데이터를 수집, 분석하는 것은 많은 기업들이 그들의 고객 선호도를 보다 잘 파악할 수 있게 해주고 신제품과 서비스 개발에 유용한 정보를 제공하게 된다.
#2. 유용한 데이터는 어떤 곳(모든 곳)에서도 나올 수 있다=빅데이터는 바닥에 떨어진 모든 데이터를 수집한다. 서버 로그 파일을 예로 들어보면 서버는 모든 로그인 사용자들이 언제, 어떤 페이지를 방문했는지 추적한다. 이 데이터는 고객들이 무엇을 찾는가 알려줄 수 있다. 빅데이터의 또 다른 소스는 센서다. 자동차, 교각 혹은 음료 자판기에서도 데이터는 생성된다. 이 같은 센서들은 데이터를 수집하고 정보를 분석해 비즈니스에 기여한다.
#3. 새로운 빅데이터 전문가가 필요하다=빅데이터 분석 시스템을 마련할 때 가장 큰 난관은 이 툴로 데이터들을 분석할 수 있는 적절한 인재를 찾는 것이다. 기업들은 데이터 과학(데이터 사이언스)에 집중해야 하며 통계 모델러, 텍스트 마이닝 전문가, 감성 분석 전문가를 채용해야 한다. 현 분석가들이 익숙하게 다루는 비즈니스 인텔리전스(BI) 툴로는 빅데이터를 분석할 수 없다. 또 방대한 데이터를 저장하고 파싱하기 위해 서버와 스토리지 시스템은 늘어난다. 슈퍼컴퓨터 관리자를 채용해야 하는 상황도 올 수 있다.
#4 빅데이터는 사전 체계화(오거나이제이션)를 요구하지 않는다=빅데이터에서는 데이터를 모으는 것이 먼저다. 이를 어떻게 사용할지는 나중에 고민할 문제다. EDW에서는 데이터를 넣기 전에 데이터 스키마의 레이아웃부터 그려야 한다. 그러다보면 결국 데이터 일부는 유실된다. 빅데이터는 모든 데이터들을 몰아넣는 `쓰레기 하치장`처럼 리포지터리를 사용하며 리포지터리 상단에 분석 툴이 운영되어 (데이터가 수집된 이후에) 상관관계를 발견하는 것이다.
#5. 빅데이터는 하둡만 있는 게 아니다=빅데이터에 대해 말할 경우 대부분 하둡 데이터 분석 플랫폼을 언급한다. 그러나 하둡 외에 선택할 수 있는 소프트웨어들이 있다. 법무 리서치 기업인 렉서스넥서스는 자사의 분석 플랫폼인 `HPCC` 시스템의 소스를 최근 공개했다. 마크로직 역시 자사의 데이터베이스를 빅데이터 업무에 적합하도록 비정형 데이터용 `마크로직 서버`로 재구성했다. 또 기업들은 스플렁크 검색 엔진을 사용할 수도 있다.
전자신문미디어 테크트렌드팀
박현선기자 hspark@etnews.com