얼마나 많은, 얼마나 다양한 데이터를 빠르게 분석해낼 수 있느냐가 기업의 경쟁력은 물론 생존에까지 영향을 미치면서 AI/ML 기반 데이터 분석은 필수다. 따라서 보유하고 있는 데이터를 최대한 활용하는 것이 중요해졌지만 많은 연구보고서에서는 기업이 보유한 데이터의 70~80%가 저장만 되고 있을 뿐 활용되지는 않는 것으로 보고 있다. 이른바 다크 데이터다.
11월 24일 전자신문인터넷과 넥스트데일리가 공동 주최한 ‘클라우드 데이터 거버넌스&인텔리전스’ 온라인 컨퍼런스에서 효성인포메이션시스템은 자사의 펜타호 솔루션 기반 데이터 통합 분석 플랫폼이 이러한 다크 데이터를 분석의 대상으로 끌어내 활용함으로써 새로운 비즈니스 인사이트와 가치를 제공할 수 있다고 강조했다.
데이터 레이크 아키텍처로 다양한 종류의 데이터를 방대하게 저장할 수 있게 됐지만 이에 따라 다크 데이터도 늘어나고 있다. 어떤 비즈니스적 가치도 제공하지 못하는 데이터를 관리하기 위해 비용만 들이고 있는 상황이다. 그러나 데이터에 비즈니스 가치가 없는 것이 아니라, 데이터가 가진 비즈니스 가치를 활용하지 못하고 있는 것이 문제다. 이를 해결하기 위해 필요한 것이 데이터옵스(Data Ops) 전략이다.
11월 24일 컨퍼런스에서 ‘데이터옵스(Data Ops)에 기반한 데이터 인텔리전스’를 주제로 강연한 안정준 효성인포메이션시스템 부장(DX사업본부 데이터사업팀)은 데이터를 통합, 변환, 결합하고 데이터 활용도를 끌어올리는 전체 과정을 데이터옵스로 설명했다. 그리고 조직의 데이터옵스 전략은 3대 요소, 즉 △인프라와 툴 △인력 △프로세스 관점에서 수립돼야 한다.
오늘날 데이터 수집을 위해 다양한 형태의 알고리즘과 통신 프로토콜이 지원되고 있으며 이전보다 훨씬 다양하고 방대한 용량의 데이터를 확보할 수 있게 됐다. 그러나 데이터의 용량, 종류가 늘어나면서 분석에 필요한 가공/전처리 업무와 비용도 증가하고 있다. 데이터 분석 전 공정에서 가공 및 전처리가 60% 이상 차지하고 있는 것으로 알려졌다.
따라서 이러한 전처리는 물론 분석과 모델링을 빠르게 수행하기 위해 고성능 컴퓨팅이 요구된다. 수많은 데이터를 분석해 변수 간 관계와 유효성을 파악해 비즈니스에 적용할 모델과 추론 시스템을 만들고, 시각화 과정을 거쳐서 업무 현장에 적용하며 결과는 스테이징과 아카이빙 같은 인프라에 적용되는데 이 과정을 반복하면서 결과를 개선해나간다.
보다 많은 데이터를 분석하기 위해서는 두 가지 데이터 관련 과제를 해결해야 하는데 하나는 데이터 사일로 제거이며, 다른 하나는 다양한 유형의 원천 데이터를 모두 수집, 가공, 분석할 수 있는 통합 플랫폼 구축이다. 또 이 분석 플랫폼은 데이터 수집부터 실무진을 위한 시각화까지 일련의 과정을 자동으로 수행하고 사용 용이성을 제공해야 한다. 효성인포메이션시스템은 그러한 데이터 통합 분석 플랫폼으로 펜타호(Pentaho)를 제안하고 있다.
펜타호의 데이터 통합 기능은 데이터의 소스나 위치에 상관없이 데이터를 검색·액세스·준비·혼합할 수 있어 시간과 복잡성을 줄여준다. 안정준 효성인포메이션 부장은 펜타호의 세 가지 주요 기능으로 ETL(데이터 추출·변환·적재), 고급 데이터 분석(R/Python), BI 시각화 기능을 꼽았다.
펜타호 데이터 수집 엔진은 오라클 DB부터 퍼블릭 클라우드, Rest-API, 레이크 하우스, 오브젝트 스토리지와 연계해 데이터를 수집한다. 데이터 수집을 사전 정해진 스케줄에 따라 자동화하고 결과를 웹으로 연결해주기도 한다. 정형 데이터뿐 아니라 카프카 연동으로 실시간 데이터 처리를 지원하며 데이터 사이언티스트들이 선호하는 R, 파이선(Python)과 연동해 데이터 전처리, 분석 결과 시각화, 스케줄 기반 데이터 흐름 관리, 모니터링 기능을 제공하고 있다. 다양한 원천 데이터를 수집할 뿐만 아니라 원천 데이터를 퍼블릭 클라우드나 레거시 시스템 등 어떤 타깃으로든 보낼 수 있다.
이어 다수의 고객사례가 공유됐는데 한 게임사의 경우 펜타호를 도입해 기존 1시간 이상 걸리던 집계 정보 확인을 5분으로 단축시켰다. 또 국제보험회계기준인 IFRS17 준수를 고민하던 보험사는 펜타호를 기반으로 IFRS17 워크플로를 구현해 각종 보안 검사 요건을 충족시키고 작업 스케줄링 기반으로 대용량 데이터 처리 프로세스를 자동화했다. 이외에 생산시설에서 예기치 못한 장애를 없애기 위해 펜타호 기반 예지정비 분석 모델을 만든 석유화학사는 다운타임시 발생할 수 있는 수억원대의 손실 비용 고민에서 해방됐으며, 신제품 개발 기간과 비용을 단축하고자 했던 타이어 제조사는 펜타호를 활용한 ETL과 데이터 분석 시스템으로 기존 1시간 이상 소요되던 데이터 조회은 물론 며칠이 지나야 나오던 예측 결과를 실시간으로 조회하고 있다.
전자신문인터넷 유은정 기자 (judy6956@etnews.com)