다음, 하둡·그린플럼 기반 빅데이터 분석환경 구현

다음커뮤니케이션(이하 다음)은 오픈소스 기반 빅데이터 처리 소프트웨어(SW) `하둡`과 비관계형 데이터베이스(DB) `NoSQL`, 분석 플랫폼 `그린플럼`을 연동해 다차원 빅데이터 분석환경을 구현했다고 15일 밝혔다. 정형·비정형 데이터가 혼재된 웹 로그의 빠른 통계 분석이 가능해져 사용자에게 더욱 신속하고 정확한 서비스를 제공할 수 있게 됐다고 설명했다.

Photo Image
다음 빅데이터 분석 프로세스

다음은 지난해 중반 `빅데이터 분석을 위한 데이터 연동 프로젝트`를 시작해 올해 초 완료했다. 정형 데이터와 이보다 몇 배 많은 비정형 데이터를 모두 처리할 수 있는 시스템 구현을 목표로 삼았다. 소셜 네트워크 서비스(SNS)와 커뮤니케이션, 뉴스, 지도, 콘텐츠 데이터 등 로그 데이터가 폭증하는 분야가 대상이다.

다음은 빅데이터 관련 여러 솔루션을 검토한 결과 정형·비정형 데이터를 효과적으로 분석하려면 하둡과 NoSQL, 그린플럼 연동해야 한다고 판단했다.

엄준식 다음커뮤니케이션 데이터기술팀장은 “웹 서버의 로그 데이터를 하둡과 NoSQL로 1차 집계·처리하고 그린플럼으로 분석해 심층적이고 다차원적인 분석이 가능하도록 구성했다”고 설명했다.

다음은 이번 프로젝트로 콘텐츠 검색 결과의 실시간 집계가 가능해졌다. 가공된 데이터는 다차원으로 분석해 고객 성향 분석과 마케팅에 활용하고 있다. 기존에 활용하던 x86서버만으로 시스템을 구성함으로써 도입 비용도 대폭 축소했다. 데이터양이 많아지더라도 x86서버만 추가하면 되기 때문에 용량 확장도 용이하다.

엄 팀장은 “데이터 사이즈가 많은 기업이라면 하둡과 NoSQL을 반드시 고민할 텐데 이 기술들은 계속 변하기 때문에 이를 지속적으로 리드할 수 있는 인력 확보가 중요하다”며 “빅데이터 분석을 위해서는 부서 간 협업이 필요하기 때문에 솔루션 내에 효과적인 협업 기능이 있는지도 검토해야 한다”고 말했다.


안호천기자 hcan@etnews.com


브랜드 뉴스룸