[솔루션 가이드] 빅데이터·AI 학습데이터 품질평가로 데이터 신뢰성과 AI 발전 돕는 데이터 품질 평가 솔루션 페블러스 '데이터 클리닉'
데이터가 비즈니스의 핵심이 되는 데이터 경제와 AI 시대에는 금융, 의료, 사물 인터넷(IoT)과 같은 데이터 집약적 부문에서는 데이터 기반의 의사결정 의존도가 높아지고 있다. 때문에 데이터의 신뢰성을 높이는 데이터 품질 평가가 중요해지고 있다. 정부에서도 데이터산업법 제2조 제5호에 데이터 품질평가를 명시하고 데이터 품질평가를 통해 데이터의 신뢰성을 확보하고 데이터 거래를 활성화와 데이터 이용자의 권익 보호에도 나서고 있다.
데이터 품질 평가는 잘못된 의사결정을 방지할 수 있고, 비용 관리 비용을 줄이고, 데이터 관리 프로세스를 효율화하고, 고품질의 데이터로 신뢰를 높이며, 관련 규제를 준수하는 데 필수 요소다. 데이터 품질평가는 데이터 산업 발전에 있어서 데이터의 정확성, 완결성, 일관성 등을 평가하여 데이터의 신뢰성을 높이고 이는 데이터 이용자의 확대와 데이터 거래 활성화로 이어진다. 데이터의 품질을 표준화하여 데이터 거래의 투명성을 높여 데이터 거래 비용을 절감하고 데이터 거래 활성화에도 기여한다.
또한 최근 화두가 되고 있는 AI 발전 면에서도 고품질의 데이터는 AI 모델의 학습 성능을 향상시키고 더 정확한 예측 결과를 도출하는 데 기여하고 편향된 데이터를 식별하고 제거하여 AI 모델의 편향 문제를 해결하는 데 도움을 준다.
이처럼 데이터 품질의 문제는 정확성, 완전성, 일관성, 편향성 등에 영향을 미친다. 정확성이 낮은 데이터는 AI 모델의 오류율을 높이고, 완전하지 않은 데이터는 모델 학습에 필요한 정보를 제공하지 못한다. 또한, 일관성이 없는 데이터는 모델 학습 과정을 방해하고, 편향된 데이터는 모델의 결과에 불공정한 영향을 미친다. 따라서 AI 기술의 발전을 위해서는 데이터 품질 관리가 필수적이며, 이를 위한 다양한 노력이 필요하다.
데이터 상호작용 방식을 재정의하는 AI 데이터 기업 페블러스의 데이터 품질평가 서비스 '데이터 클리닉'은 관찰가능한 데이터와 이를 기반으로 한 데이터의 품질을 평가해 데이터 문해력(data literacy)을 향상시켜 AI에 대한 이해도, 성능과 안정성을 개선시킨다.
그간 데이터 품질 향상을 위해 합성데이터가 많이 활용되었다. 합성데이터는 실제 수집한 데이터가 양적으로 부족하거나 비용 부담과 보안 문제 등으로 실제 데이터를 사용할 수 없을 때 활용하는 시뮬레이션 데이터이다. 그런데 합성데이터는 얼마나 많은 데이터를 어디에 투입해야 해야 할지를 따지지 않고 양적으로만 접근하고 있다는 한계가 있다.
데이터 클리닉은 합성데이터의 오남용 문제를 해결하는 정밀 타게팅 합성데이터를 만들어 낼 수 있고, 데이터의 품질 자체를 진단할 수 있어 공정한 데이터 거래와 효율적인 AI 개발에도 도움이 된다. 데이터 클리닉은 국내는 물론 미국에도 2건의 특허를 등록해 국내외 고객들로부터 관심을 받고 있다.
페블러스 '데이터 클리닉'은 데이터를 위한 종합 병원으로 빅데이터 및 AI 학습데이터의 품질평가와 개선을 위한 올인원(all-in-one) 데이터 종합 솔루션이다.
데이터 클리닉은 크게 진단과 개선 두 가지 서비스로 구성된다. 진단 서비스는 고객의 데이터가 주어지면 각종 기준을 이용해서 데이터의 품질을 측정한다. 기존의 데이터 분석도구와 다른 점은 AI을 활용해 데이터의 품질을 진단하며, 진단 결과가 웹, PDF, 인쇄물, 인터랙티브 등 다양한 형태로 제공되고, 후속 데이터 개선의 근거 자료가 된다는 것이다.
진단 과정은 다시 데이터 이미징과 진단으로 나뉜다. 이미징의 핵심적인 기술은 '데이터 렌즈(data lens)'이다. 엄청나게 높은 차원과 분량의 데이터를 관찰 가능하고 측정 가능하게 변환하는 기술이다. 이 기술은 데이터의 주요 특징은 유지하면서 두 개별 데이터 사이의 거리를 측정할 수 있게 하는 '데이터의 임베딩'을 만든다.
이렇게 변환된 데이터에 대해서는 거리 계산을 비롯해 각종 측정이 가능하다. 중요한 측정은 개별 데이터의 밀도이다. 이 단계에서 유사한 데이터가 걸러지거나 데이터가 희소한 부분이 발견된다. 그리고 데이터의 크기(coverage), 균질도, 편향 등 다양한 특징들이 계산된다.
진단 결과들은 다양한 차트와 인터랙티브 가시화 방법으로 제공된다. 현재 국내외 유명 데이터셋 100여개에 대해서 시범적으로 데이터 진단을 완료하고 웹 버전으로 데이터 진단리포트를 출시했다. PDF와 인쇄 버전도 존재한다. 특히 '데이터 유니버스'는 진단결과를 인터랙티브하게 탐색하며 인사이트를 얻을 수 있는 데이터 커뮤니케이션 도구이다. 차원이 높은 데이터의 특성상 2차원 웹이나 문서 보다는 3차원 인터랙션을 통해 데이터의 다양한 속성들을 관찰할 수 있어 CES 2024에서 가장 큰 주목을 받았다.
데이터 진단 이후의 개선 서비스도 두 가지 서비스를 제공한다. 데이터의 양을 늘리는 데이터 벌크업과 데이터의 양을 최적으로 줄이는 데이터 다이어트이다. 데이터 벌크업는 합성데이터를 추가해 데이터의 양을 늘리는 것으로 기존 기술과 다른 점은 데이터 품질진단을 통해 정밀 타게팅 방법으로 최적의 합성데이터를 생성한다는 점이다.
최근에는 생성AI를 활용해 합성데이터의 품질을 고도화하고 있다. 개선에 있어서 실제 중요한 부분은 데이터 다이어트이다. 데이터 진단에 기반해 지나치게 많은 데이터들을 과감히 줄여 초기의 AI 실험의 효율을 높일 수 있다. 예를 들어 10%의 데이터만 사용하더라도 5% 미만의 성능저하가 발생하는 데이터셋도 있다. 최근에 엄청나게 비싸진 GPU 가격을 고려한다면 데이터를 경량화 하는 것은 AI 개발 과정의 비용은 줄이고 성능은 높일 수 있다.
데이터 클리닉은 나이키를 생산하는 큰 제조 기업의 현장 물류 데이터의 품질 평가와 개선으로 기업의 비용을 절감시키고 업무 효율을 높이고 있다. 페블러스는 지난 해부터 제조데이터와 금융데이터 분야의 품질평가와 합성데이터 생성을 시작해 정부 부처, 화장품, 소비자 행동, 금융 및 보험상품 설계 등 다양한 산업군을 대상으로 사업을 확대하고 있다. 현재 대기업과 스타트업 등 다양한 조직과 함께 프로젝트를 논의하고 있다.
페블리스는 올해 글로벌 진출을 위해 데이터 클리닉을 B2B SaaS 형식으로 제공할 방침이다. 데이터 진단과 개선 전과정을 자동화하여 다양한 데이터 플랫폼에 연동할 계획이다. 또한 사용자가보다 쉽게 진단 보고서를 이해할 수 있도록 챗봇을 제공해 사용자 편의성을 높일 예정이다.
[알림] GTT KOREA와 전자신문인터넷이 오는 3월 21일 인터컨티넨탈 서울 코엑스에서 공동으로 주최하는 'Data Insight & Security Summit(DISS) 2024'에서는 “AI 트랜스포메이션, 데이터 이노베이션”을 주제로 데이터 산업을 이끌고 있는 글로벌 리더들이 AI 기반 데이터 활용과 전략 수립에 난항을 겪고 있는 기업들에게 효과적인 데이터 관리와 인사이트, 강력한 데이터 보안 전략을 제시한다.
유은정 기자 judy6956@etnews.com