다니엘 핸드 클라우데라 APJ CTO “기업 경쟁 우위는 데이터에 있다”

“클라우데라는 고객이 데이터 중심 기업으로 전환할 수 있도록 강력한 보안과 거버넌스, 배치 , 실시간 분석을 제공합니다.”

다니엘 핸드(Daniel Hand) 클라우데라 아시아태평양지역(APJ) 최고기술책임자(CTO)는 데이터는 기업간 경쟁 우위의 원천이 되는 중요한 전략 자산이라고 강조했다. 클라우데라는 고객사가 데이터 중심으로 전환할 수 있도록 지원할 계획이다.

그는 최근 고객사 미팅을 위해 한국을 방문했다. 클라우데라의 클라우드 데이터 플랫폼 전략에 대해 들어봤다.

Photo Image
다니엘 핸드(Daniel Hand) 클라우데라 APJ 필드 CTO.

1. 클라우데라를 소개한다면.

-클라우데라는 기업이 데이터 전략을 최적화해 모든 소스의 대규모의 복잡한 데이터를 더 빠르고 쉽게 실행 가능한 통찰력으로 변환할 수 있도록 지원한다. 클라우데라 데이터 플랫폼(CDP)은 전체 데이터 라이프사이클을 지원하는 세계 유일의 하이브리드 데이터 클라우드 플랫폼이다. 클라우데라는 아마존웹서비스(AWS), 구글 클라우드 플랫폼(GCP), 마이크로소프트 애저(Azure)와 같은 대규모 클라우드 서비스 공급업체와 동등한 수준의 데이터를 관리하고 있다. 엔터프라이즈 환경에서 오픈 데이터 레이크하우스에 기반한 생성형 인공지능(AI) 애플리케이션을 구동할 수 있는 독보적 입지를 확보했다.

2. 빅테크 기업이 한국 시장을 주목하고 있다. 클라우데라에게 한국 시장은 어떤 의미인지.

-한국 시장은 새로운 기술과 변화를 빠르게 흡수한다. 한국은 제조, 통신, 기업, 기술 등 다양한 분야에서 글로벌 리더이다. 클라우데라 한국 고객사는 방대한 데이터 자산을 관리하고 있으며 강력한 성장세를 보이고 있다.

지난 몇 년 간 AI와 머신러닝 알고리즘 개발이 크게 발전했지만 머신러닝 모델을 생성하기 위해서는 신뢰할 수 있는 대량의 고품질 데이터가 필요하다. 한국의 강력한 기술 리더십과 성숙한 데이터 관리 역량과 클라우데라와 파트너의 도움으로 기업은 대량의 데이터를 축적해 왔다. 이는 클라우데라가 지속적으로 가치를 창출할 수 있는 전략적이고 성장하는 자산이다.

클라우데라는 고객이 온프레미스와 퍼블릭 클라우드 모두에서 효율적이고 확장 가능한 방식으로 데이터를 보호하면서 인사이트를 얻을 수 있도록 지원한다.

3. 클라우데라가 구현하는 생성형 AI에 대해 설명해 달라.

-클라우데라 데이터 플랫폼은 엔터프라이즈 규모에서 AI, 머신러닝, 머신러닝운영(MLOps)을 제공한다. 클라우데라는 생성형AI와 머신러닝 LLM뿐만 아니라 다양한 AI 및 머신러닝 사용 사례를 지원하며 데이터 수집부터 학습된 머신러닝 모델 제공에 이르기까지 전체 데이터 라이프사이클에 걸쳐 이를 수행한다.

클라우데라는 재사용 가능한 자산 카탈로그인 머신러닝 AMP(Applied ML Prototype)를 통해 고객이 인공지능과 머신러닝 사용 사례를 빠르게 시작하고 실행할 수 있도록 지원한다. 최근 클라우데라는 AMP를 통해 오픈 소스 모델을 사용해 기업이 가진 민감하지만 신뢰도 높은 데이터로 LLM을 보강하고 온프레미스에 배포하는 것이 얼마나 쉬운지 보여줬다. 싱가포르에 위치한 OCBC 은행 등 여러 고객은 이미 코드 완성, 지원 통화 기록, 문서 요약에 이를 사용해 이점을 누리고 있다.

4. 클라우데라가 말하는 AI민주화는 어떤 것인가.

-클라우데라는 세가지 방식으로 AI 민주화를 돕고 있다.

첫째 클라우데라 데이터 플랫폼은 온프레미스 및 퍼블릭 클라우드에서 사용할 수 있으므로 고객이 데이터 사이언스를 수행할 수 있는 큰 유연성을 제공한다. 비즈니스를 지원하기 위해 AI 모델을 학습하고 제공하는 경우에는 효과가 더 크다.

둘째 고객이 오픈 소스 LLM을 더 쉽게 사용하고 데이터를 기반으로 상황에 맞는 지식 데이터베이스로 보강할 수 있도록 지원한다. 이를 통해 데이터를 외부 서비스와 공유하지 않고 기업이 원하는 컨텍스트를 통해 데이터에 대한 대화형 경험을 구축할 수 있다. 즉 오픈소스 LLM으로 구동되는 자체 AI 애플리케이션 구축을 기업 내부에서 진행하기 때문에 데이터 과학자와 머신러닝 팀, 구성원 모두에게 권한을 부여해 진정한 AI 민주화를 실현할 수 있다.

셋째, AMP 도입을 통해 온프레미스에서 LLM을 구축 및 제공하기 위한 진입 장벽을 낮추고 있다. 이를 통해 고객사가 데이터 과학자 및 데이터 엔지니어와 긴밀한 협력을 필요로 하는 환경뿐만 아니라 더 광범위한 고객에게 AI의 이점을 제공할 수 있는 길을 열고 있다.

5. 데이터 프라이버시와 보안이 생성형 AI의 문제로 부상하고 있다. 클라우데라는 이에 어떻게 대응하고 있는가?

-데이터 프라이버시는 생성형 AI 뿐만 아니라 모든 IT 기업의 중요 관심사다. 개인과 조직은 데이터를 기반으로 빠르게 발전하는 디지털 기술과 혁신과 함께 개인, 고객, 기업 데이터를 보호해야 하는 과제에 직면했다.

서드파티가 제공하는 생성형 AI 활용은 개인, 조직을 개인 정보보호 위험에 노출시킨다. 한 가지 위험 유형은 다중공유 대형 SaaS 시스템의 버그로 인해 데이터나 대화가 노출되는 경우다. 오픈AI가 사용자의 채팅 기록을 노출시킨 사례가 있다. 또 다른 위험은 민감한 데이터가 향후 모델 학습에 사용될 가능성이 있는 경우다. 마지막으로는 질문에 대한 허위 답변을 사실처럼 제공하는 경우다.

상황에 맞는 신뢰할 수 있는 데이터로 보강된 오픈소스 모델을 기반으로 퍼블릭 또는 프라이빗 클라우드에서 LLM을 사용하면 엄격한 데이터 관리 규정을 충족할 수 있는 최고의 유연성을 확보할 수 있다. 오픈소스 모델은 기업이 연구, 인프라, 개발에 막대한 비용을 들이지 않고도 AI 솔루션을 기업 내부에서 호스팅 할 수 있도록 한다. 이는 해당 모델과의 상호작용이 모두 인하우스에서 이뤄진다는 것을 뜻하기도 하며 챗GPT나 바드(Bard)와 같은 SaaS LLM 솔루션과 관련된 개인정보 유출 우려를 불식시킨다.

6. 기업이 생성형 AI 도입을 주저하는 이유 중 하나는 잘못된 정보 제공이나 그럴듯한 허위 정보 제공에 대한 염려다. 클라우데라는 이런 문제를 어떻게 해결하는가?

-일반적으로 LLM의 창의성은 머신러닝 알고리즘의 발전에 대한 척도로 활용된다. 하지만 어떤 응답이 창의적 과정의 결과인지 신뢰할 수 있는 지식에 기반한 것인지 이해하는 것은 매우 중요하다. 머신러닝은 때때로 대규모 언어 모델이 사실처럼 보이는 거짓 정보를 자신있게 제공하는 경향인 '환상(Hallucinations)'을 일으킬 수 있다. 신뢰할 수 있는 지식을 기반으로 학습된 모델을 보강하는 것은 이러한 허위 정보를 줄이기 위한 한 가지 접근 방식이다.

클라우데라는 지식 기반 오픈소스 소프트웨어 LLM을 보강한다. 여기에는 현재 사용 사례와 가장 관련성이 높은 데이터로 벡터 데이터베이스를 채우는 작업이 포함된다. 예를 들어 클라우데라의 오픈 데이터 레이크하우스의 핵심 구성 요소는 아파치 아이스버그다. 이 구성 요소는 기업이 대규모로 데이터에 구조를 추가할 수 있도록 도와준다. 예컨데 아파치 아이스버그가 무엇인지에 대한 맥락이 없다면 '아이스버그'에 대해 알려달라는 질문에 '얼어붙은 얼음 조각'이라고 답하겠지만 벡터 데이터베이스를 '아파치 아이스버그'에 대한 정보로 채운다면 비로소 제대로 된 답변을 얻을 수 있을 것이다. 즉 모델은 언어에 기반한 응답에 더불어 자체적인 지식의 컨텍스트에 근거한 응답을 생성할 수 있다.


박두호 기자 walnut_park@etnews.com


브랜드 뉴스룸