기업 데이터 혁신 요구가 높아지면서 그래픽처리장치(GPU) 기반 인공지능(AI) 분석 트렌드가 확산되고 있다. GPU는 컴퓨팅 인프라를 40% 이상 줄일 수 있는 연산 성능을 제공하지만 그만큼 처리해야 할 데이터는 50% 이상 증가한다. GPU를 활용한 분석은 높은 대역폭과 빠른 응답 성능을 요구하고 만약 어느 구간의 리소스가 부족하면 큰 입출력(I/O) 병목현상이 발생하기도 한다. 그렇다고 성능 이슈가 발생할 때마다 컴퓨팅 리소스를 추가하는 것은 비효율적이다. 특히 레거시 스토리지로 인프라를 운영하면 성능과 확장성 모두 만족시키기 어렵다. 이처럼 데이터센터 내 GPU 서버가 많아질수록 고성능 스토리지에 대한 요구사항도 높아지고 있다.

◇증가하는 데이터 활용 요구

미국 Al 연구학회의 2020년 1월 조사에 따르면 기업 인프라와 운영 리더 85%가 향후 2년 내 Al를 인프라에 활용할 예정이라고 답했다. 이들 중 상당수는 Al 애플리케이션 활용에 관심이 높지만 증가하는 대규모 머신러닝 배포 데이터셋에 대한 스토리지 요구사항과 데이터 관리 이슈를 해결할 준비가 되지 않은 경우가 많다.

데이터 수집, 준비, 추론, 모델 트레이닝, 준비와 아카이브 등 데이터 관리 워크플로는 단계별로 고유의 컴퓨팅, 스토리지, 네트워킹이 필요하다. 이는 사일로 문제를 발생시키고 비용과 시간 투자가 증가할 수 있다. 데이터 수집단계에서는 멀티 프로토콜을 통해 다양한 소스에서 데이터를 취합할 수 있어야 한다. 준비 단계는 고성능이 요구되며, 추론 단계는 낮은 지연시간이 필수다. 모델 트레이닝에는 두 가지 모두 필요하다. 모든 단계에서 대규모 확장과 자동화된 데이터 관리가 필요하지만 이를 위해 예산을 무한정 늘릴 수는 없다.

효율적인 데이터 관리는 새로운 비즈니스 모델을 원활하게 적용하고 기업 경쟁력을 높이며 고객 경험과 충성도를 높인다. 상품과 서비스 출시 기간을 단축시켜 기업 비용은 절감시키고 이윤을 높일 수 있다.

Photo Image
<데이터 관리 단계별 요구사항의 차이>

◇데이터 레이크 구현의 해결사 '오브젝트 스토리지'

모든 데이터에서 인사이트를 얻고 싶다면 데이터 흐름을 알아야 한다. 그러나 기존 방식으로는 시간이 오래 걸리고 수집된 데이터가 '전부'인지 확신할 수 없다. 하지만 기업 데이터를 '한곳에 모아 놓고' 접근한다면 얘기가 달라진다. 데이터 저장과 관리를 위한 '데이터 레이크(Data Lake)'는 데이터 사일로 현상을 방지하고, '데이터 중앙공급소'로 분석을 위한 모든 종류 데이터 취합에 탁월하다. 데이터 레이크는 셀프서비스 분석 플랫폼으로도 활용되며 기업은 데이터 레이크를 활용해 미리 정해 놓은 목적 없이도 정보를 저장하고 분석할 수 있다. 특히 제조통신 등 산업 현장에서 생성되는 실시간 데이터까지 결합할 수 있어 기업 데이터를 혁신할 수 있다.

데이터가 증가하면 인프라 비용 부담도 함께 커져 기업은 유연성과 확장성이 뛰어난 클라우드로 데이터를 이전하고 있다. 그러나 제조통신 등 산업 현장에서 쏟아지는 에지 데이터를 포함해 증가하는 엄청난 양의 데이터 관리는 여전히 쉽지 않다. 필요한 장소에서 바로 데이터를 쓰고, 데이터 저장관리 비용을 줄이는 인프라가 절실히 요구된다.

오브젝트 스토리지를 필요로 하는 기업이 크게 늘고 있다. 대규모 데이터를 처리하면서 전체 데이터를 한 곳에 담아 놓고 필요할 때 꺼내 쓸 수 있는, 데이터 레이크 전략을 가장 비용 효율적으로 구현한 솔루션이 오브젝트 스토리지이기 때문이다. 오브젝트 스토리지는 데이터를 파일이나 블록이 아닌 객체 단위로 관리하고, 모든 유형의 정형·비정형 데이터를 지원한다. 기업은 사물인터넷(IoT) 센서 데이터나 동영상, 이미지 같은 새로운 유형 데이터는 물론 기업 내 쌓인 방대한 과거 데이터를 활용해 기업 비즈니스에 필요한 가치와 인사이트를 찾아낼 수 있다. 일례로 실시간 데이터 처리가 가능한 금융 분야에 비해 제조업은 '실시간 처리 및 분석'이 어려운 영역이었다. 그러나 오브젝트 스토리지 기반 데이터 레이크를 통해 간단한 분석으로 데이터를 바로 활용할 수 있다.

데이터 레이크는 고성능과 대규모 데이터 저장소가 필수며 두 조건을 충족하려면 '성능 제공'과 '데이터 수용' 균형이 맞아야 한다. 정형, 비정형, 반정형 데이터를 한 곳에 넣어 용도에 따라 꺼내 쓰고, 대형 생산라인에서 매초 쏟아지는 데이터를 실시간 분석하려는 기업에 오브젝트 스토리지 장점에 속도까지 겸비한 고성능 스토리지가 최적 선택이다.

◇데이터 관리의 모든 단계를 지원하는 통합 AI·ML 솔루션

효성인포메이션시스템의 HCSF(Hitachi Content Software for File)는 고성능 병렬 파일 시스템과 오브젝트 스토리지가 통합된 초고성능 파일 스토리지 솔루션으로 HPC, AI·머신러닝(ML) 분석, GPU 가속화 워크로드에 최적화됐다. HCSF는 오브젝트 스토리지의 가용량과 클라우드 기능을 갖춘 분산 파일시스템 속도를 제공하며, 파일과 오브젝트 프로토콜 지원으로 데이터 수집이 간편하다. 분산 파일시스템은 데이터 준비, 모델 트레이닝, 추론 단계에서 고성능과 낮은 지연시간을 제공한다. 또 오브젝트 스토리지 기능을 활용해 대용량 스토리지를 경제적인 비용으로 이용할 수 있고, 메타데이터에 기반한 강력한 데이터 관리 자동화도 가능하다.

Photo Image
<효성인포메이션시스템의 초고성능 파일 스토리지 솔루션 HCSF>

내장된 지능형 메타데이터 기반 데이터 자동화로 컴퓨팅과 스토리지 용량을 개별 확장할 수 있는 싱글 용량 풀이 생성된다. 온프레미스와 퍼블릭 스토리지 간 데이터 이동이 가능해져 비용 절감, 컴플라이언스 준수, 비즈니스 지속성을 달성할 수 있다. HCSF는 속도도 빨라졌다. 로컬 플래시 드라이브보다 3배, 기존 올플래시 어레이에 비해 10배 더 빨라 컴퓨팅 리소스를 최대한 활용해 효율성을 높여준다. 노드가 추가되면 성능도 향상돼 컴퓨팅 리소스 활용을 극대화한다.

대용량 데이터도 정확하게 분석해 페타바이트(PB) 데이터셋을 간편하게 제공하고 파일 크기에 상관없이 매끄럽게 처리한다. 단일 데이터 레이크인 HCSF로 통합검색과 감사가 가능하며, 검색도 빨라 비용 절감은 물론 감사 시간을 단축할 수 있다. 관련 데이터 누락 같은 리스크를 줄이고 빠르게 변화하는 글로벌 규제에도 적절하게 대응할 수 있다. HCSF는 구축과 관리과 쉬워 총소유비용도 절감된다. 전체 데이터 파이프라인에 대해 백업 기능이 내장된 단일 스토리지로 사일로와 중복 복사본을 제거해 데이터를 매끄럽게 이동시키며 퍼블릭 클라우드에서 높은 유연성을 제공한다.

Photo Image
<효성인포메이션시스템 HCSF의 주요 강점>

◇산업 분야 고성능 워크로드에서 진가 발휘

HCSF를 활용하면 기업은 Al·ML 분석, GPU 가속화된 워크플로 프로젝트를 바로 시작할 수 있다. AI·ML 활용이 필요한 새로운 경쟁환경에서는 한발 앞서 더 복잡한 알고리즘으로 더 많은 모델을 운영하며 승기를 잡을 수 있다.

Photo Image
<효성인포메이션시스템 초고성능 파일 스토리지 HCSF 활용 분야>

금융서비스 부문에서 정확하고 신속한 데이터 분석, 안전한 데이터 보호, 다양한 데이터 처리 기능으로 각종 규제와 리스크 관리를 지원하고 실시간 고객 데이터 분석으로 성과를 높일 수 있다. HCSF가 지원하는 Al와 ML은 수천 배 큰 규모의 데이터셋에서 수백 개 이상 기술 지표를 처리할 수 있다.

은행과 같은 금융산업계는 규제가 가장 심한 업종으로 정보 사일로가 많아지면 거버넌스가 제대로 작동하지 않고 변경된 규제에 대한 적절한 대응이나 감사에 대비한 올바른 데이터 생산이 어려워진다. HCSF의 오브젝트 저장소는 최고의 아카이빙 및 컴플라이언스 솔루션으로 충분한 데이터 분류를 지원하며 고객 데이터를 안전하게 보호한다. 한 글로벌 카드사에서는 HCSF를 도입해 실시간 부정거래 방지 시스템, 고성능 데이터 보호 등 새로운 분석 워크로드를 위한 고성능 스토리지로 활용하고 있다.

생물정보학, 유전체학, 정밀의학 등 생명과학 분야에서도 HCSF 도입으로 데이터 분석에 대한 성과를 높이고 있다. HCSF는 다양한 데이터 유형에 적합한 솔루션으로 유전체학, 단백질체학, 대사체학, 생체 이미지, 신경 연구 등을 위해 고도로 전문화된 툴이 광범위한 종류의 데이터 프로파일을 지원한다. 급증하는 데이터로 인한 비용 증가 시 HCSF를 활용하면 스토리지 비용은 최소화하고 언제나 데이터에 액세스할 수 있는 하이브리드 클라우드 기능이 제공돼 효율적이고 경제적으로 데이터를 보관할 수 있다. 이 외에도 지질데이터를 분석해 석유나 가스 탐사, 생산에 대한 정보를 제공하는 등 다양한 분야의 고성능 워크로드에 적용할 수 있다.

효성인포메이션시스템은 글로벌 업체에서 입증된 HCSF 프로젝트 사례들을 기반으로 국내 고성능 스토리지 시장을 공략하며 기업이 AI·ML 혁신을 통한 디지털 전환에 성공적으로 접근할 수 있도록 지원할 계획이다.

이향선 전자신문인터넷기자 hyangseon.lee@etnews.com