스마트폰 등 모바일 디바이스 사용이 확산되면서 새롭게 창출, 유통되는 데이터가 급증하고 있다. 올해 생성될 디지털 데이터는 1.8제타바이트로 추정된다. 2020년에는 35.2제타바이트에 이를 것으로 전망된다. 빅데이터 시대가 온 것이다. 빅데이터는 기업이나 기관에게 있어 기회이자 위기다. 빅데이터를 어떻게 관리하고 활용하느냐에 따라 새로 형성되는 환경에서 주도하느냐, 이끌려 가느냐가 결정된다.
빅데이터를 둘러싼 법·규제를 만드는 것도 논란 대상이다. 이런 가운데 비정형 데이터가 주류를 이루는 빅데이터에 대한 효율적인 관리방안에 대해 전문가 좌담회가 개최됐다. 문화체육관광부 주최, 전자신문·한국데이터베이스진흥원·데이터거버넌스포럼 주관으로 지난 21일 개최된 ‘데이터 거버넌스 전문가 좌담회’에서 전문가들은 데이터 품질 제고를 위한 방안 마련이 시급하다고 강조했다.
◆참석자(가나다순)
△김인현 한국DB산업협의회장 △이영대 법무법인수호 변호사 △이윤준 정보과학학회장 △임종인 고려대학교 정보보호대학원장 △조강직 데이터거버넌스포럼 회장 △한응수 한국데이터베이스진흥원장 △사회=류경동 전자신문 정보산업부 차장
◇사회(류경동 전자신문 정보산업부 차장)=모바일 애플리케이션, 소셜 미디어 등 IT생태계 변화에 따라 데이터양이 기하급수적으로 증가하는 ‘빅데이터’ 시대를 맞고 있다. 데이터양은 꾸준히 증가해 오는 2020년이면 올해보다 50배가 증가한 35제타바이트에 이를 것으로 예측된다. 빅데이터 동인과 이슈는 무엇인가.
◇한응수(한국데이터베이스진흥원장)=정보통신기술(ICT)의 보편적 보급과 활용으로 데이터 급증은 이미 예견됐다. 문제는 폭발적으로 증가한 데이터를 활용하기 위해 무엇이 필요한가다. 지난 10년간 데이터웨어하우스, 비즈니스인텔리전스 등 다양한 데이터 활용 시스템이 구축됐지만 제 기능을 발휘하지 못했다. 근본적인 원인은 데이터베이스 품질에 문제가 있었기 때문이다. 비정형화 된 데이터가 주류를 이류는 빅데이터 시대에는 이러한 품질 문제가 최대 이슈다.
◇이윤준(정보과학학회장)=빅데이터가 무엇인가라는 개념부터 정의해야 한다. 빅데이터는 기존 소프트웨어로 원하는 시간 내 의미 있는 데이터를 추출하기 어려울 정도로 많은 양의 데이터를 의미한다. 이러한 많은 양의 데이터는 대부분이 비정형화 된 데이터이다. 이들 중 무의미한 데이터도 존재한다. 그러나 이러한 데이터조차 유의미한 데이터로 전환시켜야 한다. 데이터 품질을 보존하는 방식이 과거와 달라져야 하는 이유다. 과거 테라바이트 규모 데이터 품질보존 방식과 페타, 엑사바이트 규모 품질 보존방식은 분명 다르다.
◇임종인(고려대 정보보호대학원장)=빅데이터 시대가 오면서 기업들은 이를 비즈니스에 적용하기 위해 노력하고 있다. 그만큼 고객 데이터를 더 많이 저장하게 된다. 이렇게 저장된 데이터에 대한 프라이버시를 비롯해 정보 유출로 인한 문제 등이 꾸준히 제기되고 있다. 그렇다고 해서 모든 데이터에 암호화를 하게 된다면 데이터를 활용하는 데 성능이 떨어지게 된다. 이러한 부분에 대해 대책을 마련해야 한다.
◇조강직(데이터거버넌스포럼 회장)=경쟁이 치열해지면서 빅데이터 활용에 기업들 요구가 높아지고 있다. 다양한 소스로부터 양질의 데이터베이스를 구축할 수 있다면 고객을 좀 더 잘 이해할 수 있을 것이다. 그러나 문제는 급증하는 데이터를 어떻게 보관할 것인지, 정제를 어떻게 할 것인지 등이다. 데이터에 대한 품질과 보안 문제에 대해서도 해결해야 한다.
◇김인현(한국DB산업협의회장)=모바일, 소셜미디어, 클라우드 컴퓨팅 등의 확산으로 데이터양이 급증하고 있다. 빅데이터 시대가 왔다. 그러나 이들 대부분은 비정형 데이터이다. 과거 숫자 등 형식을 갖춘 정형화된 데이터는 5%에 불과하다. 이제는 데이터 품질을 논하기 조차 어렵다. 비정형 데이터를 분석할 수 있는 기술이 필요하다. 이를 위해 하둡 등 여러 기술들이 제시되고 있다.
◇이영대(법무법인 수호 변호사)=빅데이터는 15%의 높은 성장률을 기록 중이고 고용창출 등 파급효과가 큰 데이터베이스 산업의 기회다. 그러나 그동안 데이터베이스 제작·구축·활용을 지원하는 체계적인 관련 법제가 미비해 오히려 산업 성장의 걸림돌로 작용될까 우려되고 있다. 최근 데이터베이스산업진흥법이 발의된 것은 데이터베이스 산업의 새로운 추진력이 될 것으로 기대된다.
◇사회=방대한 양의 데이터로부터 유용한 정보를 얻어내기 위해 효율적인 데이터 관리와 품질이 담보돼야 한다. 국내 데이터 품질 수준은 어느 정도라고 보는가.
◇한응수=한국데이터베이스진흥원은 국내 데이터베이스 품질 수준을 파악하기 위해 국내 공공기관 및 민간기업 대상으로 데이터 품질관리 성숙 수준을 조사한 바 있다. 성숙 수준은 1단계 레벨인 도입부터, 정형화, 통합화, 정량화, 최적화 등 5단계로 구분돼 있다. 조사 결과에 따르면 올해 평균 데이터 품질 수준은 1.1레벨로 겨우 데이터 품질 관리체계를 도입하는 정도에 불과하다. 분야별로는 금융이 2.0레벨, 통신 1.0레벨, 공공·유통·의료가 0.9레벨이다. 제조는 0.8레벨로 제일 낮다. 저품질 데이터로 인해 초래되는 비용은 한해 47조원에 이른다. 데이터양이 늘어날수록 비용은 더욱 커질 것이다.
◇사회=빅데이터 시대가 오게 되면 데이터 오류로 인해 발생되는 비용 손실은 눈덩이처럼 불어날 것이다. 데이터 품질 문제를 해결할 방법은 무엇인가.
◇이윤준=빅데이터에는 정형화 된 데이터보다 사진, 노래, 비디오 등 비정형 데이터들이 주류를 이룬다. 데이터 품질을 관리하는 측면에서 보면 난감하다. 쓰레기 데이터라고 하는 것들이 어떤 경우에는 반드시 필요한 데이터로 여겨지기도 한다. 데이터 분석에 대해 많은 연구가 이뤄져야 한다. 정부에서도 지속적으로 연구를 지원해 줘야 한다.
◇조강직=데이터베이스에 대한 인식은 산업별로 다양하다. 그러나 대부분 산업에서 빅데이터를 활용해 비즈니스에 접목시키는 것은 초기단계다. 산업별로 적용된 구축사례에 대해 동종 및 이종 업계 관계자들이 서로 공유해야 한다. 서울시 다산콜센터 교통 데이터와 금융회사 고객 데이터를 융합, 분석해 새로운 비즈니스 모델을 만들기도 한다.
◇사회=빅데이터 시대가 오면서 데이터 품질 제고와 함께 데이터에 대한 보안도 핵심 이슈다. 더욱이 곳곳에서 고객 정보가 유출되는 등 데이터 보안에 대한 심각한 문제가 드러나고 있다. 이에 대한 방안은 무엇인가.
◇임종인=과거 빅데이터 출현은 아무도 예상하지 못했다. 빅데이터를 처리하는 데 인증이나 암호화가 적용되면 성능이 떨어진다. 빅데이터에 대해 시의 적절하게 분석, 이를 비즈니스에 적용하기 위해서는 보안을 어떻게 적용해야 할지도 고민돼야 한다. 빅데이터 시대 보안은 기존과 다른 보안체계가 요구된다. 빅데이터에 특화된 보안 수준체계를 갖출 수 있도록 연구가 필요하다. 법규를 만드는 것도 고민이다. 우리나라는 사전 규제 중심이다 보니 단속하는 사람의 제량권만 커진다. 법학을 전공한 사람들이 많은 관심을 가져줘야 한다.
◇이영대=빅데이터 시대에 있어 데이터 품질에 대한 정의를 어떻게 내릴 것인가도 중요하다. 즉, 데이터를 어디에 사용할 것인가에 따라 보유하고 있는 데이터 품질 수준이 달라질 수 있다. 그렇다면 그 데이터를 어디까지 사용할 수 있도록 허용하느냐도 데이터 품질과 관련돼 있다. 예를 들어 병원 진료기록 데이터를 어디까지 활용할 수 있는가에 따라 진료 데이터 품질은 크게 달라질 것이다. 데이터 품질 관리 실패가 사회 경제적으로 미치는 영향이 큰 점을 고려하면 실제적인 품질관리는 현장에서 이뤄져야 한다. 그러나 법 제도적으로 어느 정도 강제화할 필요도 있다.
◇김인현=빅데이터 시대에서는 인위적으로 데이터를 규제하는 것은 바람직하지 않다고 본다. 과거 새로운 비즈니스 모델을 가지고 급성장한 기업을 보면 프라이버시 논쟁에서 비교적 자유로왔다. 프라이버시 규제는 누가 정해주는 것이 아니라 본인과 생태계가 정한다. 빅데이터 시대에서 데이터 규제는 에코 시스템에 따라 정해져야 한다.
◇사회=우리나라 데이터베이스 산업 규모나 데이터 품질 중요성을 감안하면 정부 정책이 매우 중요하다. 현재 정책 현황은 어떤 것이 있고 향후 어떤 정책이 필요한가.
◇한응수=한국데이터베이스진흥원은 문화체육관광부 데이터베이스산업 육성 정책 일환으로 데이터베이스 품질관리 사업을 수행하고 있다. 국가 전 부문 대상으로 데이터베이스 품질 진단을 실시한다. 데이터베이스 품질 대상 및 품질 콘퍼런스 등도 개최한다. 데이터 품질을 높이기 위해 다양한 관리 방법론도 보급하고 있다. 2010년부터 데이터베이스 품질 인증 제도를 도입해 시행하고 있다. 현재 한국감정원, 한국연구재단, 윕스 등이 데이터 인증을 획득했다. 건강보험심사평가원, 자산관리공사 등이 인증심사를 받을 예정이다. 범 국가 차원에서 데이터베이스 관련 정책을 조율하고 제도화하기 위해 DB산업진흥법 제정도 추진하고 있다. 이 법에는 표준화, 품질향상, 품질인증, 보안관리 등 데이터를 체계적으로 관리할 수 있는 규정이 있다.
◇조강직=산업별 데이터 품질관리 성숙수준이 상위 2.0레벨에서 하위 0.8레벨로 차이가 크다. 금융회사 데이터 품질관리 성숙수준이 높은 것은 IT투자가 그만큼 크기 때문이다. 타 산업군의 데이터 품질 확보를 위해 산업별 정책적 지원이 필요하다. 산업별 데이터베이스에 대한 거버넌스 모델과 관련 표준을 연구하고 보급하는 정책지원도 있어야 한다.
◇김인현=행정안전부가 공공기관 데이터베이스 품질관리 지침을 제정, 보급하고 있다. 그러나 최근 발생하고 있는 데이터 품질로 인한 피해사례를 고려하면 데이터 관리에 대한 국가 차원의 정책이 강화돼야 한다. 특히 공공정보로 활용되는 데이터베이스는 의무적으로 품질을 높일 수 있도록 재정적 지원과 인증 도입이 필요하다.
◇이영대=지속적으로 공공기관과 민간기업에 데이터베이스 관리에 대한 인식과 문화가 정착될 수 있도록 선험적인 법제 정비가 추진돼야 한다. 정부의 확고한 의지가 필요하다.
◇사회=빅데이터 시대를 맞아 데이터를 적절하게 활용하기 위해서는 데이터 품질 개선이 가장 시급한 것 같다. 사회적인 문제를 해결하기 위해 기존과 다른 특성화된 보안체계와 법·제도도 필요하다. 정리 발언을 해 달라.
◇이윤준=빅데이터 시대를 맞아 데이터 중요성이 커지고 있다. 지금은 데이터 품질을 높이고 차별화 된 보안을 적용하는데 초기 단계다. 데이터를 스스로 관리할 수 있도록 자율 규제를 적용해야 한다. 정부, 학계, 산업계 등 많은 사람들이 연구하고 토론해야 한다. 인력 양성도 추진해야 한다.
◇한응수=DB산업진흥법을 연내, 늦어도 내년 상반기 중에는 제정 되도록 하겠다. 빅데이터라는 새로운 시대에 공공기관과 민간기업에서 올바르게 데이터베이스를 구축할 수 있도록 지원하겠다. 인력양성을 위해서도 다양한 프로그램을 준비하고 있다.
◇임종인=DB산업진흥법은 여러 부처와 연관돼 있다. 문화체육관광부가 주도적으로 추진해야 한다. 이미 많은 영역에서 기술은 개발 됐지만, 법·제도가 마련되지 못해 사장되는 경우들도 많다. 데이터베이스진흥원은 DB산업진흥법에 대한 이해도를 높이기 위해 노력해야 한다.
◇조강직=데이터베이스가 국가 경쟁력을 높이는 데 핵심이다. DB산업진흥법이 제정돼 국가 근간으로 산업 발전에 기여하기를 바란다. 데이터를 분석하는 기술도 중요하지만, 이를 잘 활용하는 것도 중요하다. 이를 데이터 디자이너라고 한다. 데이터 활용에 대한 인력도 양성돼야 한다.
◇김인현=DB산업진흥법이 국회통과가 돼야 한다. 모든 곳에서 관심을 갖고 추진해야 한다. 공공, 민간 등 전 분야에서 보다 적극적으로 데이터베이스를 활용해야 한다.
◇이영대=데이터 품질을 높이는 데 필요한 요소는 무엇인지. 비즈니스 마케팅에 필요한 데이터는 무엇인지. 다른 법규와 상충되는 부분은 무엇인지 등을 고민해야 한다. 빅데이터를 적절히 활용하기 위해서는 트로이 목마에 나오는 병사들처럼 긴장을 늦추지 말아야 한다.
◇사회=빅데이터 시대를 맞아 데이터를 자산으로 인식하고 비즈니스 가치를 높이기 위해 데이터 품질이 중요하다는 것을 재차 확인할 수 있었다. 데이터에 대한 보안과 이를 둘러싼 법 제도 등도 중요한 사항들이다. 공공 및 민간에서 데이터베이스 활용에 대한 인식을 전화하게 되는 계기가 되길 바란다.
사진=
정리=신혜권기자 hkshin@etnews.com
윤성혁기자 shyoon@etnews.com