클라우드와 AI로 ‘다크 데이터’ 늘어난다 - 11월24일 클라우드 데이터 인텔리전스&거버넌스 전략 온라인 컨퍼런스 개최

전자신문인터넷과 넥스트데일리 공동 주최로 11월 24일 ‘클라우드 데이터 인텔리전스&거버넌스 전략’ 온라인 컨퍼런스가 개최된다. 효성인포메이션시스템, 한국IBM, 퀘스트소프트웨어, 베리타스코리아, 데이터이쿠 등이 클라우드 환경에서의 AI 기반 데이터 활용 및 거버넌스를 주제로 강연한다. 참가비는 무료다. (사전등록 페이지 https://conference.etnews.com/conf_info.html?uid=232)

Photo Image

기업들의 디지털 전환(DX)의 양대 축은 데이터와 클라우드다. 데이터를 기반으로 의사결정을 수행하고 비즈니스 가치를 도출해내며 클라우드 인프라와 AI/머신러닝의 결합으로 속도와 효율성을 함께 보장하려 하고 있다.

특히 데이터는 기업 디지털 전환의 생명선이라고 할 수 있다. 그러나 클라우드 환경, AI 기반 분석과 함께 클라우드의 데이터 활용과 거버넌스는 새로운 문제에 봉착하고 있다. 온프레미스부터 프라이빗 클라우드, 다수의 퍼블릭 클라우드에 데이터들이 산재돼 기업들이 인지하지 못하는 데이터 혹은 인지하더라도 활용되지 않고 있는 데이터들이 늘어나고 있기 때문이다.

클라우드 이전에도 데이터 사일로 현상은 IT 관리자들의 큰 고민이었지만, 클라우드 시대 정형, 비정형 데이터를 모두 아우르는 데이터 레이크 아키텍처에서도 데이터 사일로와 유사한 성격의 고립돼 활용되지 않는 데이터는 여전히 존재한다. 이른바 다크 데이터다.

이러한 다크데이터는 온프레미스부터 프라이빗 클라우드, 퍼블릭 클라우드(SaaS)로 데이터 운용 환경이 혼합 확산되면서 오히려 더욱 늘어나고 있다. 이전의 데이터 사일로가 스토리지 아키텍처, 데이터 유형 등 기술적 차원이 주요인이라면, 현재의 다크 데이터는 기업의 데이터 거버넌스 체계 부재에서 원인을 찾을 수 있다.

특히 AI/머신러닝 분석이 확대될수록 다크 데이터와 데이터 거버넌스 문제를 야기하고 있다. AI 분석의 정확성은 분석 대상 데이터의 용량과 다양성에 직결되며, 비즈니스 가치를 신속히 도출하고자 하는 욕심은 기업 내 기하급수적으로 늘어나는 AI 모델과 AI 프로젝트를 파생시키고 있기 때문이다. 데이터 거버넌스에 AI 거버넌스가 필수인 상황이다.

11월 24일 '클라우드 데이터 인텔리전스&거버넌스 전략' 온라인 컨퍼런스에서는 데이터의 소스, 형태, 규모 등의 조건에 제약받지 않고, 기업이 보유하고 있는 모든 데이터를 통합하여 분석하고, 이를 비즈니스 확장을 위한 인사이트로서 활용할 수 있는 방안을 알아본다.

데이터옵스 기반 통합 AI 데이터 분석 플랫폼 필요

효성인포메이션시스템은 AI 데이터 분석 및 거버넌스에 대해 데이터옵스(DataOps)’ 관점에서 바라보고 있다. 비즈니스 인사이트의 정확성은 분석 데이터가 방대할수록, 다채로울수록 높아지지만 현재 다양한 인프라 간 다양한 유형의 데이터들이 산재해 있고 에지부터 클라우드까지 서로 다른 인프라, 서로 다른 소스에 걸쳐 있는 데이터를 다뤄야 하기에 데이터와 인사이트 사이에는 마찰 지점(the friction points)이 존재한다.

데이터옵스 전략은 이러한 마찰 지점을 최소화해주는데 효성인포메이션시스템의 데이터옵스 전략의 핵심은 펜타호 데이터 통합 분석 솔루션이다. 기업과 조직이 올바른 데이터를 적절한 시기에, 적절한 리소스에서 사용할 수 있도록 하고 올바른 이유로 데이터가 사용되고 있음을 확인하는 것이 바로 데이터옵스다.

하지만 시중에는 데이터의 수집, 정제, 분석 및 활용까지 단계별로 너무도 많은 솔루션들이 존재한다. 각각의 솔루션을 사용하는 것은 기업에 비용은 물론 운영관리에 큰 부담을 주게 된다. 효성인포메이션시스템은 이를 자사의 데이터 통합 및 분석 자동화 솔루션 ‘펜타호(Pentaho)’로 해결할 수 있다고 전했다. 기업이 보유한 모든 유형의 데이터를 통합 분석하고 데이터 수집부터 변환, 적재, 분석, 그리고 시각화까지 일련의 과정을 원스톱으로 수행하며 오픈소스 기반으로 비용까지 만족시킨다는 설명이다. 특히 제조업 고객들의 실제 프로젝트 추진 및 구현 사례를 중심으로 생생한 데이터 인텔리전스 현장을 소개한다.

클라우드•데이터•AI의 거버넌스는 동시 수립돼야

한국IBM은 ‘데이터 패브릭에서 AI 거버넌스까지 효율적 통합 관리를 위한 Data-AI 플랫폼 운영 전략’을 주제로, 신뢰할 수 있는 AI 데이터 분석 환경을 어떻게 구현할 수 있는가를 다룰 예정이다. 한국IBM에 따르면 클라우드와 AI 기반 데이터 분석 플랫폼 구축은 세 가지 질문을 던지는 것으로 시작해야 한다. 과연 믿을 수 있는 데이터인가(데이터의 신뢰성), 과연 믿을 수 있는 AI 모델인가(AI 모델의 신뢰성), 분석 과정 역시 신뢰할 수 있는가(프로세스의 신뢰성)가 그것이다. 그리고 이를 해결해주는 솔루션으로 자사의 ‘클라우드 팍 포 데이터(IBM Cloud Pak for Data)를 소개할 계획이다.

멀티 클라우드 환경에서 데이터를 한 곳으로 모아 저장하는 것은 현실적으로 불가능한 일이다. 그러나 데이터가 여러 곳에 분산 저장돼 있어도 사용자가 원할 때 최적의 데이터에 접근 및 즉시 사용할 수 있도록 해주는 것이 데이터 패브릭 아키텍처다. 또 김지관 한국IBM 실장은 "데이터 패브릭을 기반으로 확보된 최적의 데이터는 분석 인사이트 확보 및 AI 구현에 활용되어야 하며, 기업 내 AI 운영이 급증하는 추세에 따라 이에 대한 운영 관리 및 모니터링을 중심으로 한 AI 거버넌스 체계의 수립은 필수가 되고 있다"고 설명했다.

데이터이쿠 역시 클라우드 데이터 시대의 AI 거버넌스에 대해 강연한다. 국내 비교적 신생 진출한 데이터이쿠는 프랑스에 기반을 두고 있으며 에브리데이 AI(Everyday AI) 및 현업 비즈니스 실무자들이 직접 사용하는 AI 데이터 분석 솔루션을 제공하는 업체다.

이처럼 현업에 밀접한 AI 기반 데이터 분석 툴을 제공하다보니 AI 프로젝트와 AI 모델이 기하급수적으로 증가하는 상황에서는 AI 거버넌스가 AI 활용과 동시에 확보돼야 함을 강조하고 있다. 데이터이쿠는 이를 위해 표준 AI 프로젝트 프레임워크가 필요하고 이를 기반으로 AI 프로젝트들을 중앙화 하고 우선순위를 정하며 검증을 해야 한다는 설명이다.

'AI Governance: Gain control over AI'를 주제로 강연하는 김태홍 데이터이쿠 이사는 “AI 거버넌스 프레임워크는 AI 설계, 개발 및 배포 방법을 형성하는 표준화된 규칙, 프로세스 및 요구 사항을 통해 조직의 우선 순위를 강화한다”며 “그러나 Value-added 모델을 비즈니스에 시급히 제공하기 위해 서두르면 AI 및 분석 데이터 프로젝트가 충분히 테스트되지 않았거나 프로덕션 환경과 호환되지 않을 수 있다”고 우려했다.

또 IT 관리자는 적절하게 모니터링할 수 없으며 영향을 받기 전에 비즈니스 담당자에게 문제를 알리지 않으면 불만을 야기한다. 결과적으로 신뢰도 하락, 컴플라이언스 등 리스크 및 위협 증가 등의 결과를 초래할 수 있다. 데이터이쿠는 조직의 데이터 사이언티스트 팀이 비즈니스 가치를 지속적으로 제공할 수 있는 힘을 제공하면서 안전하게 확장하고 구현하는 방법을 소개할 예정이다.

DB 개발 관리자에겐 더욱 버거운 하이브리드 클라우드

DB 개발자 및 관리자라면 누구나 알고 있는 토드(Toad)의 퀘스트소프트웨어는 온프레미스와 클라우드 환경에 데이터세트가 혼재하면서 DB 관련 개발자들에게 더욱 까다롭고 복잡한 환경이 되고 있다고 지적한다. 온프레미스 환경은 물론 다중 클라우드, 이기종 DBMS를 통합 지원할 수 있는 툴이 절실해진 것이다.

현재 클라우드를 통한 완전 관리형 DBMS가 고성장하고 있지만 기업들은 한 가지 DBMS만 사용하지 않는다. 오히려 다양한 클라우드 DBMS의 성장과 확산으로 기업의 DB 개발에선 더욱 다양한 이종의 DBMS를 지원해야 하는 부담이 늘어나고 있다. 최용회 퀘스트소프트웨어 이사는 “온프레미스와 클라우드 혼용 환경에서 △다양한 이기종 데이터베이스에 대한 접속과 활용 △다양한 DB 클라이언트 툴 지원 △분산된 데이터에 대한 통합 분석 △일시적 데이터 작업 및 테스트에 필요한 데이터 이관 △분산된 데이터에 비교 검증 등에 대한 DB 작업자들의 요구가 늘어나고 있다”고 설명했다.

이를 지원하는 퀘스트 솔루션이 바로 토드 데이터 포인트(Toad Data Point)다. 기존에 토드 포 오라클, 토드 포 SQL서버, 토드 포 DB2 등 DB 개발 및 관리자들의 필수 툴이라고 할 수 있는 토드 제품들을 통합해 각종 이기종 DBMS 지원을 한 제품에서 수행하는 솔루션이다. 하나의 개발 툴로 멀티 DBMS를 지원하고 그 DBMS 간에 Join 및 데이터 비교가 가능하여 기업의 리소스를 크게 절감시켜준다.

퀘스트소프트웨어는 이번 컨퍼런스에서 ‘온프레미스에서 클라우드까지 데이터베이스 개발의 모든 것’이라는 주제로, 다양한 운영 환경에서 DBMS 성능 최적화 및 리스크 완화를 지원하는 방안에 대해 소개한다.

퍼블릭 클라우드(SaaS)의 데이터 보호는 제한적

하이브리드/멀티 클라우드 환경에 데이터가 분산 저장되면서 기업들의 데이터 보호 전략에도 새로운 관점이 요구되고 있다. 기업들은 다수의 서비스형 소프트웨어(SaaS)를 사용하고 있지만 SaaS를 포함한 퍼블릭 클라우드 서비스에서의 데이터 보호에 대해 오해하고 있는데, SaaS 업체가 제공하는 데이터 보호는 매우 제한적이란 사실을 간과하고 있다.

베리타스코리아는 “클라우드 서비스 프로바이더(CSP)의 클라우드 공동 책임 모델로 인해 데이터에 대한 책임은 사용자 기업에게 있다”고 설명한다. 클라우드 환경에서는 기존 모니터링 방식으로는 개인 정보를 포함해 민감하고 기밀성이 요구되는 업무 정보가 안전하게 보호되고 있는지, 침해 시도나 위협 표지는 없는지 탐지하기 어렵다.

한 글로벌 설문 조사에 따르면 응답자 99%는 클라우드 서비스 제공업체가 클라우드의 일부 자산을 보호할 책임을 지는 것으로 알고 있다고 대답했지만, 사실 대부분의 클라우드 서비스 제공업체는 ‘클라우드 자체’의 복원력만을 보장하고 있으며, 클라우드 안에 있는 데이터와 애플리케이션에 대한 책임은 고객이 져야 한다는 것을 명확하게 알려주는 경우는 많지 않다.

클라우드 책임 모델에 대한 이 같은 오해는 많은 기업이 제3자 데이터 보호 요구 사항을 고려하지 않고 중요한 데이터를 랜섬웨어 공격 및 기타 데이터 손실 사고에 취약하게 방치하고 있음을 의미한다. 이 조사에 따르면 조직의 약 절반인 47%는 클라우드 서비스 제공업체가 솔루션에 내장한 백업 도구에만 의존한 결과 데이터가 손실된 것으로 나타났다. 또한 응답자 87%는 클라우드 서비스 제공업체의 현재 제품이 조직의 보안 요구 사항에 미치지 못한다는 데 동의했다.

'다양한 SaaS 환경에 대한 내부통제 및 안전한 데이터 보호 방안'을 주제로 강연하는 베리타스코리아는 다양한 SaaS 환경에 대해 엔터프라이즈급 고기능 백업 복구 및 데이터 복원력을 확보할 수 있는 방안에 대해 소개한다.

마지막 랩업 세션에서는 국내 대표 컨설팅 기업인 투이컨설팅에서 ‘데이터 거버넌스와 클라우드 컴퓨팅’을 주제로 강연 및 사회자와의 대담 시간을 가진다. 공공 및 금융의 차세대 시스템 프로젝트와 데이터 거버넌스에 특히 강점을 지닌 투이컨설팅에서 데이터 관리와 데이터 거버넌스의 차이점을 설명하고, 클라우드 환경의 데이터 거버넌스를 어떻게 시작해야 할지 강연한다.

강연자인 김원일 투이컨설팅 이사는 "클라우드 환경에서는 기존의 방식과는 다른 데이터 관리 방식을 요구하며 포괄적인 데이터 클라우드 통합 관리 전략이 필요하다"고 설명했다. 기업들이 데이터 기반 비즈니스 인사이트를 강화하기 위해서는 데이터를 잘 축적, 저장하고 데이터의 품질을 관리하는 것이 필요하다. 나아가 원하는 데이터를 정확히 꺼내서 활용하고 싶다면 데이터 거버넌스를 시작해야 한다는 설명이다.


전자신문인터넷 유은정 기자 (judy6956@etnews.com)


브랜드 뉴스룸