인류의 수많은 문제는 대중의 의사와 욕망을 파악하지 못해서 생겨난다. 빅데이터는 누구 목소리인지 가늠할 수 없는 거대한 함성소리와 같다. 거대해서 의미심장하지만 무슨 소리인지는 알아듣기 어렵다. 이 때문에 정부와 기업들은 VoC(Voice of Customer)에 귀를 기울이기 시작했다.
이미 빅데이터 처리 기술은 유통 기업들엔 승부수가 된 지 오래다. 아마존은 자라는 대용량 데이터와 정보기술(IT)을 결합해 고객관리와 재고관리 등을 선보인 대표적 빅데이터 선도주자로 꼽힌다.
빅데이터가 몇 년 새 기업경영의 화두로 떠오른 이유는 무엇일까. 사회가 여러 변수로 인해 복잡·다양해지면서 기업엔 무엇보다 정확하고 명확한 가치 판단이 중요해졌다. 이런 환경에서 수치화, 객관화된 데이터는 기업경영 전반에 하나의 의사결정 수단으로 자리 잡게 됐다. 규모가 큰 기업일수록 확실한 수치 근거가 있어야만 움직이려고 하는 경향이 반영된 것이다. 이러한 기업들은 더욱더 데이터에 의존하게 된다.
‘데이터 경영’이 화두가 되면서 정부도 정부3.0을 내걸며 공공데이터 개방과 민간 활용을 통해 데이터 거래, 유통을 활성화하려는 노력을 꾀하고 있다. 여기서 결코 간과해서는 안 되는 것이 있다. 바로 기본 중의 기본인 데이터 품질이다.
빅데이터 처리는 데이터 품질이 있었기 때문에 가능했다. 아무리 성능 좋은 하드웨어를 가졌다 하더라도 입력하는 데이터가 오류투성이라면 원하는 결과를 얻어낼 수 없다. 데이터 품질 확보는 특히 기업 혹은 공공기관이 보유하고 있는 각종 데이터를 유용한 정보로 가공하고 이를 기업의 핵심 자산인 지식으로 탈바꿈시키는 데 매우 중요한 요소다.
우리는 흔히 빅데이터의 구성요소를 규모(Volume)와 다양성(Variety), 속도(Velocity)로 정의한다. 이제는 데이터 품질을 의미하는 가치(Value)를 핵심 요소로 부각시키면서 데이터 경영과 거버넌스를 실현하도록 양질의 데이터를 확보하는 것이 중요하다.
포레스터리서치에 따르면 기업의 95%가 데이터를 기업의 핵심 자산으로 꼽고 있지만 데이터 활용률은 5% 미만으로 나타났다. 데이터 관련 시스템들이 제 기능을 못했던 것은 데이터 품질에 문제가 있었기 때문이다. 고객관계관리(CRM)나 데이터웨어하우스, e비즈니스, 전사자원관리(ERP) 등을 통해 생성된 데이터의 품질을 담보할 수 없어 실제 기업 경영에 활용되지 못했다는 분석이다. 특히 우리나라의 데이터 품질은 아직 걸음마 수준인 것으로 평가된다.
국내 DB의 오류율은 빅데이터 소용돌이 속에서도 매년 같은 수준에 머물러 있는 것으로 나타났다. 품질관리 수준도 전체 5.0레벨 중 1.1 레벨로 매우 낮은 수준이다. 낮은 품질의 DB가 활용됨에 따라 그 피해가 2차, 3차로 확산될 수 있는데, 한국데이터베이스진흥원은 그 피해 규모를 연간 47조원으로 추산하고 있다.
기업에서 보면 데이터가 잘못돼 오류가 발생하거나, 혹은 관리가 잘못돼 품질이 보장되지 않아 엄청난 비용을 지불하고도 비즈니스 기회를 놓치는 사례가 많다. 막대한 예산을 투입해 구축한 기업의 시스템이 데이터 품질이라는 복병을 만나 기대만큼 성과를 거두지 못한다고 한다.
지난 10여년 동안 많은 기업들은 데이터 활용보다는 수집에 더 신경을 써왔다. 데이터 품질보다는 구축에 열을 높였다. 이제 활용을 위한 품질을 높이는 것이 기업 성공을 위한 필수요소다. 그렇기 때문에 체계적 데이터 품질 활동을 지원하기 위한 최소한의 법적 장치를 마련해서라도 오류 데이터로 인한 잠재적 손실과 사고를 예방해야 한다.
민간 기업의 데이터 품질 활동 지원, 전문 인력 양성, 데이터 거래 활성화와 데이터 사업화 지원 등 데이터 산업의 체계적 육성을 위한 ‘데이터베이스산업진흥법안’이 국회에 계류돼 있다. 지금껏 데이터의 5%를 활용하던 기업들이 이를 100% 활용해 더욱 큰 효과를 거두도록 이 법이 하루속히 제정되기를 기대해본다.
김종현 한국DB산업협의회 부회장 jonghyun@wise.co.kr