[카카오 블랙아웃] 전기실서 화재…'무중단 서비스' 재해복구 체계 작동 안했다

SK(주) C&C 판교 데이터센터 화재로 인한 카카오 서비스 장애가 10시간 넘게 이어지면서 카카오톡 기반 카카오택시, 카카오페이 등 여러 서비스 이용객이 불편을 겪었다.

SK(주) C&C 데이터센터 전기실에서 불이 난 이유를 밝히는 것은 적지 않은 시간이 걸릴 전망이다. KT 아현지사 통풍구 화재 때도 화재 원인 규명에만 수개월이 걸렸고 결과 역시 명확하지 않았다.

원인에 따라 향후 책임소재와 피해보상 등을 놓고 공방이 벌어질 가능성도 있다. 그러나 수천만명이 사용하는 카카오 서비스에 장시간 오류가 지속된 데 대해서는 비난을 피하기 어려울 전망이다. 다수가 사용하는 보편적 성격을 띤 서비스의 '무중단 서비스 방안 마련' 논의도 불거질 전망이다.

Photo Image

◇서비스 정상화, 왜 늦어졌나

데이터센터를 이용하는 일정 규모 이상 기업은 서버 이중화(HA)를 구축하고 백업센터(DR센터)를 별도 운영한다.

서버 클러스터링 기술로 메인서버(액티브)와 백업서버(스탠바이)를 연결하고 장애 발생 시 백업서버로 실시간 업무이관(페일오버)해 서비스 중단을 막는다. 데이터는 스토리지 미러링 기술로 백업하고 장애 복구 시 사용한다.

주센터 메인서버에 문제가 발생하면 백업서버를 가동하고, 주센터 전체에 문제가 생기면 백업센터를 가동시키는 식이다. 금융과 통신 등 무중단 서비스가 요구되는 분야에서 주로 사용하는 재해복구(DR) 체계다.

카카오는 여러 지역 데이터센터에 백업센터를 구현해뒀다고 밝혔다. 서버 이중화도 해뒀을 가능성이 크다. 그러나 SK(주) C&C 판교 데이터센터 화재는 전산실이 아니라 전기실에서 발생했다. 특히 화재 발생지가 무정전전원공급장치(UPS)였기 때문에 화재진압을 위한 전기시설 차단에도 임시 전원 공급이 어려웠다.

이 경우 주센터 내부에 구축한 이중화 체계는 작동이 불가능하다. 카카오는 서비스 중단 상황과 복구 예상 시점을 가늠하며 백업센터를 주센터 대신 가동해야 할지, 주센터에 전원이 재공급되는 것을 기다려야 할지 고민했을 가능성이 크다.

어느 경우라도 주센터 대신 백업센터를 가동하는 것은 적지 않은 시간이 필요한 만큼 주센터 전원 재공급을 기다려 이후 복구에 초점을 뒀을 것으로 보인다. 주센터 전산자원은 화재로 피해를 입지 않았기 때문이다.

Photo Image

◇액티브-액티브 체계 갖춰야

SK(주) C&C 판교 데이터센터 전원은 15일 밤 늦게부터 16일 새벽까지 순차적으로 재공급되기 시작했다. 16일 새벽 1시경 모바일 카카오톡 문자수발신 등 일부 기능이 복구된 것도 이 때문이다.

그러나 전원이 공급됐다고 해서 바로 서비스가 재개되는 것은 아니다. 시스템이 서비스 중단 기간 동안 이용자가 사용한 막대한 데이터를 수용해 처리해야 하기 때문이다. 백업센터의 데이터와 주센터의 데이터를 일치시키는 '데이터 정합성' 작업에도 시간이 필요하다.

전문가는 주센터와 백업센터를 '액티브-스탠바이'가 아니라 '액티브-액티브'로 두고 주센터에 문제가 발생해도 무중단 서비스를 운영해야 한다고 지적한다. 평상시에도 백업센터를 가동하면서 업무에 활용하는 방식이다.

데이터센터 기업 관계자는 “통상 주센터와 백업센터를 액티브-스탠바이 형태로 두고 문제가 생기면 백업센터를 가동시키는 데 적잖은 시간을 소비한다”면서 “실시간 트랜잭션 데이터를 디스크가 아니라 메모리에 두고 주기적으로 디스크에 백업을 하는 경우가 많기 때문”이라고 말했다.

그는 “실시간이 아니라 트랜잭션 발생 몇 시간 후 데이터가 백업센터에 저장되기 때문에 각 센터의 데이터 정합성 확보를 위한 수동 복구에 시간이 걸리는 것”이라며 “실시간 백업은 물론, 평소에도 백업센터를 업무에 활용하는 액티브-액티브 체계를 갖춰야 한다”고 강조했다.

액티브-액티브 체계는 비용과 인력이 추가로 들지만 전산자원의 성능을 2배로 높일 수 있는 장점도 있다. 무중단 서비스가 중요한 병원, 제조 생산라인을 중심으로 최근 도입이 늘고 있다.

Photo Image

◇재해복구 대응계획 현실화해야

산업은 물론 일상생활 곳곳에 정보통신기술(ICT)을 활용한 서비스 확산세가 빨라진다. 데이터센터를 비롯한 ICT 시스템 장애가 불러오는 손실도 점차 커지고 있다.

전문가들은 주기적으로 발생하는 ICT 장애를 막기 위해서는 실제 상황에 준하는 재해복구 훈련을 주기적으로 실시해야 한다고 말한다.

서버 호스팅 전문가는 “데이터센터에서 전산자원을 운영하다 보면 계획에 없던 돌발상황이 많이 발생하는데 이는 기존 매뉴얼에 담기가 어렵다”며 “이번 사태도 대응 계획에 반영되지 않았던 문제일 가능성이 크며, 새로 발생하는 문제를 반영한 대응계획을 마련하고 훈련을 실시해야 한다”고 말했다.

전문가들은 이번 사태를 계기로 지속되는 ICT 시스템 장애와 이에 따른 피해를 막기 위한 방안을 다시 논의해야 한다고 강조한다. 실시간 이중화와 실시간 백업센터 가동 방안, 네트워크(통신사) 이중화, 재난 대응 매뉴얼 최신화 등을 정책적으로 다뤄야 한다는 것이다.

카카오는 SK(주) C&C 판교 데이터센터 상면을 임대해 사용한다. 데이터센터 운영사가 서버까지 제공하고 관리하는 방식이 아니라 공간만 임대해 자체적으로 전산자원과 서비스를 운영한다.

이번 사태의 경우 카카오가 운영하는 전산자원이 아니라 SK(주) C&C 데이터센터 전기실에서 발생한 화재가 원인이다.

카카오와 SK(주) C&C가 맺은 계약 내용에 따라 SK(주) C&C가 일정 부분 책임을 져야 할 수도 있다. 카카오 서비스 중단에 따른 이용자 피해보상 여부는 차차 논의될 전망이다.

안호천기자 hcan@etnews.com