데이터 품질관리 차세대 프레임워크를 찾아라-박주석 경희대학교 교수 jspark@khu.ac.kr
기업 IT 관계자들이 데이터의 중요성을 인식하고 하나의 독자적인 범주로 취급하게 된 것은 비교적 최근의 일이다. 그동안 기업 IT를 구축한다는 것은 프로세스를 정비하고 그 프로세스를 IT 시스템으로 구현하는 것을 의미했다. 금융기관 등의 차세대시스템 프로젝트는 이러한 노력의 집대성이라고 할 수 있다.
하지만 프로세스와 시스템만으로 기업 IT의 목표를 달성한다는 것은 근본적인 한계를 갖는다. 시간이 지나면서 프로세스도 변하고 시스템도 바꾸게 되지만 실제로 기업에 남아 있는 것은 데이터이기 때문이다. 결국 데이터의 품질이 기업 IT의 품질을 좌우한다는 사실을 기업 IT 관계자들도 점차 확실히 알아가고 있다.
문제는 정보시스템의 데이터 품질이 여러 가지 요인에 의하여 지속적으로 나빠질 수밖에 없다는 점이다. 흔히 애기하는 것처럼 ‘데이터가 부패되는’ 현상이 그것이다. 그래서 데이터 품질관리는 흔히 ‘정보시스템의 당뇨병 치료’에 비유되기도 한다.
◇데이터 품질관리 접근방법의 발전단계=데이터의 품질이 나빠진다고 해서 정보시스템의 운영에 당장 심각한 영향을 주는 것은 아니다. 하지만 이를 방치할 경우 시스템의 관리 및 유지보수에 문제를 초래하고, 결국 정보시스템 전체를 재구축하는 원인이 되기도 한다. 이것 때문에 지속적인 데이터 품질관리가 필요한 것이다.
데이터 품질관리의 중요성에 대해 저명한 데이터품질 컨설턴트인 래리 잉글리시는 “조직 내·외부의 지식 노동자와 최종 사용자의 기대를 만족시키기 위해 지속적으로 데이터 및 데이터 서비스를 개선하는 활동”이라고 정의하기도 했다.
이렇게 중요한 데이터의 품질을 관리하는 접근 방식도 IT 환경의 변화에 따라 함께 변화 발전해왔다. 초기의 사용자 관점에서 점차 모델러의 관점으로 이전하고 이후 아키텍트의 관점을 거쳐 최근에는 데이터 거버넌스의 관점에서 데이터 품질관리를 바라보는 것이 일반적이다.
첫 번째 단계인 사용자 관점에서는 데이터 값 자체의 유효성이나 활용성을 평가하는 것이 데이터 품질관리의 핵심 이슈가 된다. 예를 들어 종업원 마스터파일 구조에 상관없이 현업이 사용하는 종업원 파일 안에 필요한 속성이 모두 포함되어 있는지, 있다면 데이터 값이 제대로 들어가 있는지 측정하고 개선하는 것이 주요 목표이다. 이 단계에서는 데이터 클린징이나 데이터 프로파일링이 주요 기법으로 사용된다.
두 번째 단계인 모델러의 관점에서는 데이터 값이 들어가는 데이터 파일의 구조가 잘 되어 있는지가 중요하기 때문에 데이터 모델링이 데이터 품질관리의 중요한 이슈가 된다. 예를 들면 종업원 파일과 관련된 파일들이 무결성과 일관성을 유지하면서 잘 모델링되어 있으면 현업 사용자가 데이터 처리를 어떻게 하든 좋은 데이터 품질을 유지할 수 있다. 이러한 모델링을 위해 개체관계도(ERD : Entity-Relationship Diagram) 등이 사용되고 있다.
세 번째 단계인 아키텍트 관점에서는 부분적인 영역의 모델링이 아니라 전사 차원의 모델링체계가 되어야 좋은 데이터 품질을 유지할 수 있기 때문에 데이터 아키텍처가 중요한 이슈가 된다. 따라서 개괄적 모델부터 논리적 모델을 거쳐 물리적 데이터베이스까지 연계해 관리하는 것이 주요 목표이다.
네 번째 단계인 데이터 거버넌스 관점에서는 프로세스 설계가 핵심 이슈가 된다. 좋은 데이터 아키텍처를 설계해도 이를 위한 조직과 프로세스가 잘 정립되어야 지속적으로 데이터품질을 유지할 수 있다. 즉, 현업 및 IT 관리자가 데이터 관리 프로세스를 제대로 적용하지 않는다면 금방 원래의 상태로 회귀하여 데이터 값이 부패될 수 있다.
이러한 발전 단계를 살펴보면 결국 데이터 값, 데이터 구조, 데이터 관리 프로세스 등이 모두 중요하며 전사 차원의 데이터 품질관리는 이 세 가지 요소를 모두 포괄해야 한다는 것을 알 수 있다. 이런 요소들을 포괄해 종합적으로 문제를 바라보게 하는 도구가 바로 데이터 품질관리 프레임워크다.
◇데이터 품질관리 프레임워크의 도래=프레임워크는 아키텍처를 담아내고 그 아키텍처를 이해하는 기본 형식이라고 할 수 있다. 정보시스템 발전 초기에는 개발자 관점의 프로그래밍이 강조되다가 이후에 프로젝트 관점의 방법론을 거쳐 최근에는 자원관리 관점의 아키텍처로 관심이 집중되고 있다.
데이터에 대한 연구도 초기에는 물리적 구현 관점의 DBMS 위주였으나 이후 논리적 구현 관점의 모델을 거쳐서 최근에는 관리 관점의 데이터 품질이 강조되고 있다. 즉, 정보시스템의 아키텍처에 대한 강조와 데이터 품질의 요구가 프레임워크를 통해서 만나게 된다고 설명할 수 있다.
데이터 품질관리 프레임워크에 대한 모색은 최근 몇 년 사이에 더욱 활발해지고 있다.
한국데이터베이스진흥원은 2005년에 데이터 전문가들이 중심이 되어 개발한 ‘KDB DQ 프레임워크’를 발표했다. 이것은 국내 최초의 데이터 품질관리 프레임워크로서, 현재 대부분의 기업들이 이를 기준으로 데이터 품질관리 활동을 전개하고 있다. 또 이 프레임워크를 근거로 한 국가공인 자격증 제도도 운영하고 있다.
한국데이터베이스진흥원의 KDB DQ 프레임워크는 EA 프레임워크를 벤치마킹해 개발한 결과물이다. EA 프레임워크는 뷰(View)와 퍼스펙티브(Perspective)로 구분된다. 뷰는 비즈니스·데이터·애플리케이션·기술 아키텍처 등으로 구성되며, 퍼스펙티브는 관련된 조직 계층을 통해 개괄적·개념적·논리적·물리적 관점을 제시한다. KDB DQ 프레임워크 역시 뷰와 퍼스펙티브로 구분된다.
즉, 데이터 품질관리의 뷰에 의해 데이터 값, 데이터 구조, 관리 프로세스로 구분되며 이는 데이터 품질관리를 위한 세 가지 구성요소가 된다. 즉, 데이터 값의 품질을 높이기 위해 데이터 구조를 향상시키는 한편 데이터 관리 프로세스도 정립돼야 한다.
퍼스펙티브는 CIO 관점, 데이터 아키텍트(DA) 관점, 모델러 관점, DBA 관점, 사용자 관점으로 구분된다. 이는 EA 프레임워크의 개괄적, 개념적, 논리적, 물리적 관점과 일치하며 여기에 사용자 관점이 추가된 것이다. 즉, 데이터 품질을 높이기 위하여 각 계층이 수행해야 할 업무를 보여주고 있다.
◇데이터 품질 성숙도 모델로의 진화=현재의 데이터 품질관리 프레임워크는 일반적으로 데이터 값과 데이터 구조, 관리 프로세스 등을 정의하고 표준화하고 있지만, 각 조직의 성숙도를 반영하는 작업은 아직 미진한 실정이다.
향후 통합 데이터 품질관리 모형은 미시적 관점, 부가가치적 관점 등으로 구분해 접근하는 것이 바람직하다. 미시적 관점에서는 데이터 품질관리 프레임워크를 개발하고, 거시적 관점에서는 데이터 품질 성숙도 모형을 도출해야 한다. 또 부가가치적 관점에서는 비용과 효과, 위험 모형을 개발하는 과제가 남아 있다.
성숙도 모델은 데이터의 성숙도를 단계별 특성으로 정의하기 때문에 각 기관이 데이터 품질 상황을 객관적으로 쉽게 이해할 수 있으며 또한 측정이 용이하다는 장점이 있다. 또 데이터를 사용하고 그 품질을 관리하는 기관들이 다음 발전 단계를 인식하고 구체적으로 그러한 목표 달성을 위해 노력해야 할 지점을 제시한다는 점에서 보다 구체적이고 현실적이라는 장점이 있다.
한국데이터베이스진흥원과 투이컨설팅이 2006년에 공동으로 발표한 데이터 품질관리 성숙도 모델은 데이터 구조 측면보다는 데이터 관리 프로세스 측면에서 5단계의 성숙 수준을 설정한 것이 특징이다.
이 모델의 레벨 1은 도입 단계로, 데이터 품질에 대한 필요성을 인지하고 품질관리를 수행하지만 그 활동이 체계적이지 않은 단계를 말한다. 레벨 2는 정형화 단계로, 데이터 품질관리를 위한 원칙, 표준, 절차 등을 수립하고 조직적인 대응 활동을 수행하는 단계다. 레벨 3은 내재화 단계로, 데이터 관리 프로세스가 조직 내부에 정착되어 전사적이고 총체적인 접근 등 핵심적인 수행 요건을 충족시키는 단계다.
레벨 4는 정량화 단계로, 데이터 관리 프로세스에 대한 축적된 경험을 바탕으로 성과 지표 설정 등 통계적이고 방향성 있는 관리를 수행하는 단계를 지칭한다. 마지막으로 레벨 5는 선진 기술의 도입 등을 통하여 데이터 관리 프로세스를 개선하고, 미래의 변화를 예측하고 대응할 수 있는 내적 역량을 갖춘 단계를 말한다.
◇차세대 데이터 품질관리 모델의 조건=향후 데이터 품질 성숙도 모델은 데이터 관리 프로세스의 성숙도뿐만 아니라 데이터 구조 및 조직의 성숙도도 고려할 수 있을 것이다. 즉, 데이터 아키텍처의 성숙도와 데이터 거버넌스의 성숙도가 서로 연계되어 유기적으로 기능할 필요가 있다는 얘기다. 이를 통해 데이터 구조의 성숙도와 프로세스의 성숙도, 조직의 성숙도가 연계되며 데이터의 품질 기준이 결국 서비스의 품질 기준으로 이어지는 결과가 나오게 된다.
이는 데이터의 품질이 곧 정보의 품질로 이어져야 한다는 의미이기도 하다. 국내에서는 아직까지 데이터 품질과 정보의 품질을 구분하지 않고 혼용하는 경향이 있다. 하지만 이론적으로는 데이터와 정보(information), 지식(knowledge)의 개념을 구분하고 있으며, 지난 10년 동안 정보 품질의 문제를 해결하기 위한 연구도 진행돼 왔다.
정보 품질(IQ:Information Quality)은 데이터 품질과 다르다. 이것은 제공되는 정보의 적합성을 따지는 개념으로, 데이터 품질과 서비스 품질 그리고 기타 관련 요소가 모두 통합된 개념이라고 할 수 있다.
개념적으로 데이터 품질의 문제는 적절한 데이터베이스나 데이터 웨어하우스 애플리케이션에 의해 해결될 수 있는 성격이다. 이 문제를 해결하기 위한 수단으로 데이터 클린징 알고리듬, 데이터 프로파일링 프로그램, 데이터 안정화(data stabilization) 알고리듬, 통계적 프로세스 제어, 사전 매칭 등을 꼽을 수 있다.
정보 품질의 문제는 IT시스템 등 자동화된 프로세스에 의해 해결할 수 없다는 특징을 갖고 있다. 비즈니스 이슈의 분석, 업무 프로세스의 개선, 관련 커뮤니티 요구 분석 등의 활동을 요구하는 것이다. 정보 품질의 문제를 해결하는 방안으로는 설계 가이드라인, 퍼블리싱 정책, 인증 교육, 소스 검증 규칙, 정보시스템의 추가 도입 등이 대표적이다.
과거의 데이터 품질관리에서는 주로 데이터 무결성에 관한 규칙이 적용됐으나 최근에는 비즈니스 규칙이 주로 적용되고 있다. 따라서 진정한 의미의 현업 비즈니스 규칙을 상시적으로 적용할 수 있는 체계를 데이터 품질관리 프레임워크에 도입할 필요가 있다.
또 금융산업과 제조업, 유통업 등 업종별 참조모델을 만들어야 한다. 업종별 데이터 품질관리 프레임워크를 통해 BSC(Balanced Score Card)를 활용한 데이터 품질관리 ROI의 측정이 가능해진다. 데이터 품질에 대한 성과 체크리스트가 간략한 성과 측정 방안이고, 보다 일반적인 성과 측정 방안으로 DQMS 도입에 대한 성과 측정이 있다면, BSC를 활용한 데이터 품질관리 ROI 측정은 가장 체계적인 성과 측정 방안이라고 할 수 있다.
차세대 데이터 품질관리는 궁극적으로 서비스 품질관리로 이어져야 한다. 데이터 품질 요소에 대한 미시적 관점과 데이터 품질관리 성숙 단계에 대한 거시적 관점의 통합 데이터 품질관리 모형에 점차 비용, 효과, 위험 분석의 관점을 더해 통합 서비스 품질관리 모형으로 이어져야 하는 것이다. 이 모형은 서비스 제공 성숙 단계의 관점에서 접근하게 된다.
jspark@khu.ac.kr
<필자소개>
박주석 경희대학교 교수는=미국 UC버클리에서 데이터베이스를 전공하고 현재 경희대학교 경영대학 MIS 전공 교수를 역임하고 있다. 국내 데이터모델링 방법론 정립, 데이터아키텍처 연구 및 표준화 추진, 데이터 성숙도 모형 제시, 범정부 데이터 참조모델 설계 등에서 활동하고 있으며 한국데이터베이스학회 편집위원장, 한국경영정보학회 데이터베이스연구회 위원장 등을 지낸 바 있다. 한국데이터베이스진흥원 ‘데이터품질관리 지침’, ‘데이터품질관리 성과평가’ 저술에도 참여했다.
관련 통계자료 다운로드 향후 데이터품질 성숙도 모델의 방향