
최근 IT기업 인수합병에서 `데이터의 처리와 활용`이 한 축을 차지하고 있다. EMC의 그린플럼 인수, IBM의 네티자 인수, SAP의 사이베이스 인수 등 최근의 사례가 이를 뒷받침하고 있다. 앞으로도 이 분야에서는 지속적인 인수합병이 일어날 것으로 예상된다.
이러한 급격한 변화의 배경은 무엇일까. 한때 데이터는 일부 국한된 IT관계자들만의 영역이었고 데이터를 다루는 관점 역시 대부분 기술적이었다. 하지만 현재 데이터 이슈는 IT업종, IT부서에 국한되지 않는다. 오히려 비즈니스(현업)에 의해 더 절실히 다뤄지고 있다.
또한 이제 기업의 데이터는 `점진적으로` 증가하지 않는다. 폭발적으로 증가한다는 말도 구태의연하다. `홍수가 덮치듯` 빅 데이터(Big Data)가 등장하고 있다.
◇다양한 현업 지원 서비스에 고성능 DW 필요=빅 데이터가 등장하는 이유는 다음과 같다. 스마트폰, 넷북 등 최근 새롭게 등장한 다양한 디지털 채널이 보편화되고 있고, 금융 및 통신업계의 각종 규제 정책들, 새로운 형태의 지주사 출현에 따른 시너지 효과와 교차분석수요의 등장, 통신 · 카드사의 인수 제휴를 통한 복합상품의 등장 및 상호 마케팅이 빈번하기 때문이다.
통상적으로 기업의 데이터들은 데이터 웨어하우스(DW)라고 불리는 시스템에 보관되고 활용되는데 가트너는 실제 데이터 양 기준 5TB의 DW를 이제 소규모 DW 사이즈로 규정짓고 있다. 2000년 이전에 도입된 초기 전사 DW 규모가 평균 3TB 미만이었던 점을 감안하면 실로 큰 변화다.
한편 초대용량 DW 활용 형태가 기업의 실제 수익 창출을 담당하는 현업 부서의 다양한 요구로 인해 점차 변화하고 있다. DW는 이제 소수의 IT 분석가들뿐만 아니라, 리포팅 · OLAP툴과 결합되어 스마트 기기들을 통해 최전방의 다수 일선 사용자들, 즉 영업소 직원, 콜센터 상담원 등에게 거의 실시간에 준하는 `비즈니스 인텔리전스(BI)` 서비스를 제공하는 형태로 발전했다.
그러나 대용량의 DW를 다수의 일선 사용자들까지 활용하는 단계에서 성능을 보장하는 것은 그리 단순한 일이 아니다. 최근 가트너의 보고서에 따르면 약 70% 정도의 DW 구축사가 다양한 성능 문제를 겪고 있다고 한다.
IT부서 위주의 DW에서 벗어나 현업의 DW · BI활용 증대로 나타난 가장 중요한 변화는 `혼합 워크로드(Mixed workload)`이다.
보다 최신 데이터를 활용한 비즈니스 활동을 위해 데이터 로딩주기가 점점 짧아지고 있으며, 수분에서 수시간 단위의 IT분석가 질의뿐만 아니라 수초 이내의 현업 질의를 처리하기 위해서는 DW 자원의 조정과 분배의 필요성이 커지게 됐다. IT와 현업의 혼합 워크로드를 원활히 지원하여 양쪽 모두를 만족시키는 것이 결국 성능 이슈를 극복하는 것이다.
현업이 원하는 성능은 무조건 빠른 시스템을 의미하진 않는다. 365일 동안 최고 수준의 가용성이 확보돼야 하고, 비즈니스의 성장에 따른 시스템 증설 및 확장, 유지보수 작업으로 인한 다운타임의 최소화 역시 넓은 의미로 성능의 범주에 포함된다.
한때 DW의 구축에 있어서 중앙집중형 전사 DW냐, 연합화(Federation) 혹은 부서 · 주제별 데이터마트냐 등의 방법을 두고 격론이 벌어지기도 했지만, IT 관점의 비용효과보다 비즈니스관점의 효용가치가 부각되는 현재의 상황에선 더 이상 구축방법론이 크게 중요하지 않다. 최근 가트너에서도 데이터마트의 재등장, 연합화 등 다양한 고객사의 추세를 적시하고 있다.
◇수 초내 질의응답 위해 적절한 자원 조정과 분배=그렇다면 `빅 데이터`를 둘러싼 이러한 변화에 대응하기 위해 DW 시스템이 꼭 갖춰야 할 기능들에는 무엇이 있을까.
첫 번째는 강력한 성능이다. DW 사이즈가 수십, 수백 TB를 넘어가면서 빅 데이터 이슈를 해결하기 위해 각종 DW 전용장비 형태의 전용 어플라이언스가 등장했다. 성능이 최적화 된 패키지 형태의 장비들은 기존 대비 10배 혹은 100배에 이르는 성능을 제공할 수 있다. 이러한 고성능 구조의 어플라이언스 업체들이 최근 인수합병의 주요 대상이 되는 이유도 바로 여기에 있다.
두 번째는 워크로드 관리 기능이다. 예를 들어 오전에는 단순 리포트 현업 사용자들에게 마케팅 분석가의 복잡한 쿼리에 비해 더 많은 자원을 배분한다거나, 밤 시간에는 데이터 로딩업무에 좀 더 많은 자원을 할당하는 기능을 말한다.
구체적으로 시스템의 CPU, I/O 등의 리소스를 현재 시스템 용량에 맞도록 사용자그룹 또는 사용자별로 우선 순위와 동시 수행 쿼리수를 큐 형태로 제한하여, 주간과 야간에 배분하여 자원 할당한다.
또한 비정상적인 쿼리로 인해서 데이터베이스에 과부하를 주게 되는 경우 데이터베이스의 옵티마이저가 비용(Cost)을 계산해 특정 CPU, I/O의 범위를 넘을 때는 제어할 수 있도록 하여 잘못된 요구조건에 대해서 시스템의 부하를 조절할 수 있도록 한다.
세 번째는 유연성이다. 중앙집중형 DW나 업무별 데이터마트 등 어떠한 형태의 데이터모델이든지 원활히 지원할 수 있는 기술적 유연성이 확보돼야 한다. 인수합병, 그리고 전통적인 영역을 깨는 새로운 신규 상품과 서비스의 출현을 통해 더욱 강화된 비즈니스의 컨버전스 경향을 고려했을 때 이는 더욱 중요시되는 부분이다.
네 번째는 안정성이다. 365일 상시 가동을 위해 미리 계획된, 혹은 장애로 인해 갑작스럽게 발생한 다운타임을 최소화할 수 있어야 한다. 또한 데이터 이중화 등 최고 수준의 고가용성도 제공할 수 있어야 한다.
다섯 번째는 확장성이다. 데이터량의 급격한 증가추이에 맞춰 확장이 용이한 시스템이어야 하며, 실제 자원 확장에 따라 선형적 성능 확장성을 보장받을 수 있어야 한다.
대형 서버 시스템 위주의 SMP(스케일업 방식) 시스템이 확장성, 특히 선형적인 성능 확장성에 있어 많은 제약이 있었지만 현재는 x86서버 기반의 MPP시스템(스케일아웃 방식)이 DW 어플라이언스의 주류를 이루고 있다.
여섯 번째는 비용 효율성이다. 비용 측면은 비즈니스 운영에 있어 가장 중요한 부분 중 하나다. 비즈니스 성장 혹은 신규 업무로 인한 DW · 데이터마트 시스템을 추가해야 할 경우 비용 이슈로 일괄 증설의 시기를 기다리기보다는 비즈니스 요구가 있을 때 바로 진행할 수 있을 정도의 비용 효율성을 지녀야 한다.
일곱 번째는 개방성이다. ETL, 리포팅, OLAP, 백업, 보안, 암호화 등 IT 및 현업 사용자들에 의해 활용되는 다양한 종류의 툴 및 솔루션들과의 기술적 연동 및 정책적인 제휴를 보장해야 한다. 또한 다양한 벤더사의 하드웨어 플랫폼을 지원하는 것이 요구된다.
마지막으로 DW시스템이 갖춰야 할 기능은 바로 기술 혁신성이다. 향후 기업의 전산 환경 중 상당부분이 클라우드에 의해 대체될 것이라고 예견되는 이상, 클라우드와 연계된 DW 서비스와 인프라를 미리 고려해야 한다.
이를 위해서 기본적으로 고성능의 MPP 시스템과 네트워크 그리고 가상화 기술을 접목시키고 병렬처리 데이터베이스 및 필요 어플리케이션 또는 툴들이 설치되어 필요한 시점(Dynamic Provisioning)에 분석 마트 또는 필요 데이터베이스를 생성하고 데이터를 가공 · 적재하여 분석할 수 있도록 한다. 이미 해외에서는 이러한 시도들이 실제로 좋은 결과를 만들어 가고 있으며, 국내에서도 그러한 시도들이 곧 생기리라 기대한다.
김희배 한국EMC 데이터컴퓨팅제품사업본부 이사 hbkim@emc.com


















