Photo Image

디지털 전환이 가속화되며 정보기술(IT)이 산업 전반에 필수 기본 요소로 자리잡았다.

이는 IT시스템과 서비스 장애에 따른 사회적·경제적 손실이 그만큼 커질 수 있다는 의미다. 여러 기업 장비가 밀집된 데이터센터 장애는 최근 사례처럼 막대한 사회적 손실을 초래한다.

한국데이터센터연합회에 따르면, 2020년 기준 국내 데이터센터는 156개(공공 68개, 민간 88개)다. 집계에서 빠진 공공기관별 전산센터와 지난해·올해 새로 인가를 받은 데이터센터까지 합하면 수치는 늘어날 것으로 추정된다.

아날로그 또는 디지털 요인으로 인한 데이터센터 마비 사태를 방지하는 것은 기업의 핵심 리스크 관리 요소다. 철저한 설비 점검과 장애 대응체계 확립, 재해복구(DR) 솔루션 도입을 통해 업무 연속성을 유지해야 한다.

Photo Image

◇화재·침수 등 장애 요인 다양

데이터센터 설비나 장비를 마비시키는 아날로그적 요인에는 지진이나 화재, 침수, 전쟁, 정전 등이 있다. 국내에서 발생하는 데이터센터 사고는 화재, 침수와 이에 따른 정전에 집중돼 있다.

전산장비와 전력 케이블, 수배전반, 변압기, 발전기, 무정전전압공급장치(UPS), 축전지, 냉동기 등에 화재가 발생하거나 침수돼 서비스가 마비되는 사례가 일반적이다.

2010년 시티은행 데이터센터 침수, 2014년 삼성SDS 과천 데이터센터 화재, 올해 SK(주) C&C 판교 데이터센터 화재 등이 대표적이다.

전문가들은 데이터센터 냉수 배관과 전력 루트를 이중으로 설치하고, 배터리실과 장비실을 물리적으로 구분해 장애에 대비해야 한다고 조언한다.

데이터센터 티어(Tier) 인증업무를 수행하는 업타임 인스티튜트는 데이터센터 인프라를 티어1~티어4로 구분하고, 티어3 이상으로 설계하도록 권고한다. 냉수 배관과 전력 루트가 이중인 티어3 이상은 무중단 유지보수가 가능한 상태로 '연속 IT 고장시간'이 1.6시간 이하, 가용성은 99.98%다.

리튬이온 배터리 화재 대비도 강화해야 한다. 2012년부터 국내 데이터센터에 적용된 리튬이온 배터리는 자체 산소 발생, 열폭주 등 구조적 특성상 한번 불이 붙으면 잘 꺼지지 않는다.

화재 때 산소를 발생시키지 않는 인산철 리튬 배터리가 개발됐지만 국내에는 2025년 이후 보급될 전망이다.

스탠더드시험연구소가 발표한 압축공기포 기반 리튬이온 배터리 화재진압시스템이 대안이 될지 주목된다. 시스템은 압축공기포를 통해 물의 5배 이상 냉각 성능을 발휘, 리튬이온 배터리 화재를 빠르게 진압한다.

Photo Image

◇투자 늘려 재해복구(DR) 체계 확립해야

화재나 침수 같은 아날로그 요인 이외에 해킹이나 시스템 오류 같은 디지털 요인도 데이터센터에 장애를 일으킬 수 있다. 전산장비가 노후화되면서 전산장애 요인이 되기도 한다.

기업은 전산 서비스 장애 대응을 위해 내부 서버를 이중화해 페일오버를 통한 고가용성(HA)을 확보하고 백업센터를 운영한다.

백업센터가 50㎞ 이상 떨어져 있을 경우 레이턴시로 인해 액티브-액티브 구성이 사실상 어렵다. 이에 따라 주센터 인근에 백업센터를 구성, 액티브-액티브 체계를 확보하고 원거리에 보완적으로 백업센터를 추가 운영하는 방안이 이상적이다.

최근 무중단 업무가 필요한 병원이나 제조 생산시설을 중심으로 근거리 액티브-액티브 구성이 늘고 있어 주목할 필요가 있다.

액티브-액티브 구성은 백업센터 스토리지, 서버, 데이터베이스관리시스탬(DBMS) 등을 평상시에도 운영하며 장애에 대응하는 방식이다. 평상시엔 각각 다른 업무에 이용하며 전산자원을 가동시키고 주센터 장애 때 복구 시간을 최소화한다.

관건은 비용이다. 기업은 비용 절감을 위해 백업센터에 주요 업무에 대한 전산 환경망을 구성한다. 그나마 액티브-액티브가 아니라 액티브 스탠바이 형태로 구성, 장애가 발생하면 백업센터 가동, 정합성 확보 등에 오랜 시간이 걸린다.

그러나 데이터센터에 장애가 발생하면 액티브-액티브 구성에 투자하는 것보다 몇 배의 보상이 필요하다. 무엇보다 심각한 기업 이미지 손상을 입게 된다는 점을 잊지 말아야 한다.

Photo Image

◇검증된 솔루션으로 실시간 장애 대응

데이터센터 장애에 대비하려면 주기적 장애대응 훈련을 실시해야 한다. 전산 시스템을 운영하다 보면 예상치 못한 장애가 발생하고 시나리오에 없던 상황에 맞닥뜨리게 되는 경우가 많다는 게 전산 운영 담당자의 얘기다. 이 같은 상황을 반영해 장애 대응 매뉴얼도 항상 최신화해야 한다.

국가적 가이드라인 도입 필요성도 제기된다. 데이터센터 인가는 상면, 전력시설 등 기본 규격에 초점을 맞출뿐 재난 대응 수준에 대해서는 살피지 않는다. 각 기업이 자체 장애 대응 매뉴얼을 만들어 대응한다.

데이터센터 관련 기업 대표는 “미국은 티어3 인증을 받으면 보험료를 30% 할인해주는 등 국가 차원에서 데이터센터 장애를 막기 위한 정책을 운영한다”며 “정부 제정 DR 가이드라인 도입을 통해 안정성을 높이고 데이터센터 산업도 활성화해야 한다”고 말했다.

무엇보다 데이터센터 설비 투자를 늘리고 검증된 솔루션으로 업무 연속성을 확보하는 게 중요하다.

델 테크놀로지스, 베리타스, VM웨어, 오라클, 효성인포메이션시스템, HPE·HPE아루바 등 전문 기업이 액티브-액티브 체계 확보, 실시간 데이터 복구 등을 위한 전문 솔루션을 제공하고 있다.


자동화를 통한 빠르고 안정적인 재해복구, 총소유비용(TCO) 절감, 운영 효율성 제고를 위해 눈여겨봐야 할 제품이다.


안호천기자 hcan@etnews.com