[스페셜리포트] 화재모니터링·비상대응·데이터백업 미흡 등 총체적 부실 드러나

지하 3층 배터리실서 최초 발화, 자동소화 작동했지만 UPS 손상
전력 선별차단 불발에 사태 악화…정확한 화재 원인 규명은 아직
배터리 모니터링 시스템 강화하고 전기설비 물리적 공간 분리 주문
운영·관리도구 다중화 체계 확보, 장애상황별 모의훈련 시행·보고

Photo Image

SK㈜ C&C 데이터센터 화재로 인한 카카오 장애는 화재 모니터링 시스템과 신속한 전력 차단을 어렵게한 배터리실 구조, 서비스 비상백업 등이 작동하지 않은 총체적 부실이 사태를 키운 것으로 분석됐다.

과학기술정보통신부는 데이터센터 사업자가 화재시 비상대응 시스템을 갖추고, 카카오·네이버에 신속 백업 등 시스템을 보완할 것을 요청했다. 다만, 배터리 화재 정확한 원인에 대해서는 아직 확실한 원인이 드러나지 않았다. 서비스 보상, 향후 디지털서비스 종합 안전방안과 관련해서도 여진이 지속될 전망이다.

◇SK㈜C&C 배터리실에서 화재

과기정통부의 사고 조사·분석에 따르면, SK㈜C&C의 판교 데이터센터 화재는 10월 15일 15시 19분 SK온의 리튬이온 배터리 모듈이 보관된 지하 3층 전기실에서 시작돼 당일 23시 45분 진화됐다. 당시 현장 폐쇄회로(CC)TV에는 해당 배터리에서 스파크가 튄 이후 곧바로 자동소화 설비가 작동하는 장면이 포착됐다. 배터리는 전력 공급이 불안할 때를 대비한 비상용 전원 공급 장치인 무정전전원장치(UPS)를 가동시키는 리튬이온 배터리였다.

정부는 리튬이온 배터리가 일부 UPS와 물리적으로 완벽히 분리되지 않은 공간(천장 공간이 미분리된 격벽)에 배치돼 화재 열기 등으로 UPS가 작동이 중지됐고 일부 전원공급도 중단됐다고 설명했다. 전원공급 시스템 자체는 이중화 돼 있지만 특정 공간의 UPS에 동시 장애가 발생하면 해당 UPS에서 전력을 공급받는 서버에 전력 중단하는 것이 불가피한 구조였다. 살수로 인한 2차 피해가 우려되는 특정 구역과 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치가 이뤄지지 못한 점도 사태를 키운 원인으로 지목됐다.

다만, 과기정통부는 스파크를 발생시킨 정확한 화재 원인에 대해서는 국립과학수사연구소가 조사중이라며 신중한 입장을 표시했다. 사태 발생 이후 2개월 후 원인 논란을 매듭짓지 못한 부분은 아쉬움을 남겼다는 평가다.

◇카카오 비상백업 제대로 작동 안해

화재 발생 이후 카카오 계열사의 카카오톡·카카오T 등 주요서비스는 최대 127시간 33분간 장애가 발생한 것으로 조사됐다.

카카오는 서비스 기능을 5개 층위(레이어)로 구분하고 판교 데이터센터를 '액티브(활성)'으로, 타지역 데이터 센터를 '스탠바이(대기)' 체계로 이중화 구조를 갖추고 있었다.

하지만, 대기 서버를 활성으로 만들기 위한 권한관리 기능을하는 '운영 및 관리도구'가 판교 데이터센터 내에서만 이중화했을 뿐 타 데이터센터에 이중화돼 있지 않았다. 데이터서버 전반을 이중화를 해놓고도 이를 제어할 부위를 판교 데이터센터에만 두고 이중화하지 않아 결과적으로 백업시스템이 제대로 가동하지 않은 것이다. 또 '애플리케이션' '서비스 플랫폼' 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소 이중화가 미흡한 것으로 드러났다.

한편, 카카오는 10월 19일∼11월 6일 동안 10만5116건의 피해를 접수했으며, 이중 유료 서비스에 대한 피해는 1만4918건, 금전적 피해를 언급한 무료 서비스는 1만3198건이 접수됐다. 방송통신위원회는 향후 무료서비스에 대해서도 고지체계를 강화할 방침이라고 밝혔다. 다만, 정부의 적극적인 피해보상 대책 등은 공개하지 않아 논란이 당분간 지속될 수 있을 것으로 예상된다.

네이버는 데이터센터 간 이중화 조치로 서비스 중단은 없었지만, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 발생한 것으로 분석됐다.

◇과기정통부 모의훈련, 백업체계 강화 등 시정조치

과기정통부는 SK㈜C&C에는 배터리 모니터링 시스템 계측정보 등 관리를 강화하고, 다양한 화재감지 시스템 구축 방안 수립을 지시했다. 리튬이온 배터리 화재 시 필요한 소화설비 등 구축을 권고했다. 배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내에 위치한 전력선을 재배치해 구조적 안정성을 확보하도록했다. 화재 발생 구역의 전력을 개별 차단할 수 있는 방안을 마련하고 재난 현장에 직접 진입하지 않고도 해당 구역의 전력 차단 등 조치를 할 수 있도록 방안 수립을 지시하고, 모의 훈련을 강화할 것을 주문했다.

SK㈜ C&C 관계자는 “리튬이온 배터리 화재 대응을 위한 별도 장치와 재난 발생 구역의 전력 개별 차단 방안도 준비하고 있다”며 “장기적으로 리튬이온 배터리를 대체재로 납축전지나 리튬 인산철 배터리(LFP) 등으로 교체하는 방안을 검토 중”이라고 말했다.

과기정통부는 카카오에는 '운영 및 관리도구'까지 데이터센터 간에 다중화하도록 했다. 인증 등 핵심 기능에 대해서도 보다 높은 수준의 이중화·다중화 조치를 취할 것을 요청했다. 또 최악의 상황을 대비한 훈련 계획을 수립, 모의 훈련을 실시해 보고하고 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구방안 수립을 주문했다. 장애 탐지-전파-복구 전 단계를 재점검해 자동화 기능 요소 발굴 등 개선방안을 수립하고, 이용자고지 체계 강화와 보상계획도 마련할 것을 주문했다.

카카오 관계자는 “7일 이프 카카오 개발자 콘퍼런스를 통해 판교 SK㈜C&C 데이터센터 화재로 인한 서비스 장애의 원인을 분석하고, 인프라 투자 계획 등을 담은 재발방지대책을 공개할 예정”이라며 “과기정통부가 발표한 시정 요구 사항 중 보강할 부분이 있다면 적극적으로 검토해 반영할 계획”이라고 밝혔다.

과기정통부는 네이버에도 서비스별 장애 시나리오별 복구 방안 등을 재점검해 개선방안을 마련하고 데이터센터 전소 등 상황을 가정한 모의 훈련을 실시해 보고할 것을 주문했다. 네이버 관계자는 “조사에 성실히 임했으며 정부의 시정요구 사항을 참고해 앞으로도 중단없는 안정적 서비스 운영에 최선을 다하겠다”고 밝혔다.

과기정통부는 3사에 1개월 이내로 주요 원인에 대해 개선 또는 향후 조치계획을 수립해 방송통신재난 대책본부에 보고하도록 행정지도했다. 예방 대응 복원력 전반에 이중화를 강화하는 디지털서비스 안전에 대한 종합적인 개선 방안은 내년 1분기 수립할 계획이다. 사업자 의견 수렴을 충분히 수렴하는 것은 과제로 지목됐다.


박지성기자 jisung@etnews.com, 성현희기자 sunghh@etnews.com, 송혜영기자 hybrid@etnews.com


브랜드 뉴스룸