[카카오 블랙아웃]국내외 주요 플랫폼 기업들은 재난대응 어떻게 하나

Photo Image

플랫폼 서비스의 연속성·안정성은 기업 생존과 직결된다. 모든 정보기술(IT)시스템은 인재 사고 뿐 아니라 불가항력 사고로도 멈출 수 있다. 어쩔 수 없는 재해로 인한 서비스 중단 시에도 빠르게 복구해 신속하게 서비스를 정상화하는 것이 중요하다.

Photo Image
ⓒ게티이미지뱅크

국내외 주요 플랫폼 기업들은 지진이나 화재, 테러, 기술적 문제 등 예상치 못한 비상사태를 대비해 관련 인프라에 적극 투자하고 있다. 'NHN클라우드'는 판교와 평촌 2개의 데이터센터를 운영 중으로, 이들 데이터센터를 기반으로 백업 및 서비스 이중화를 하고 있다. 특히 NHN클라우드는 올해 '비즈니스연속성경영시스템 ISO 22301' 인증을 획득하기도 했다. 국제 기준에 부합하는 위험 상황에서 효과적인 대응과 비즈니스 연속성 유지, 조직 회복력 관리 체계를 인정받아서다. 글로벌 표준으로 심사가 까다로워 인증받기까지 수개월이 소요되는 것으로 알려져 있다. SK㈜ C&C 판교 데이터센터 화재로 주요 서비스가 중단된 카카오의 경우 해당 인증을 획득하기 전이다.

국내 대표 종합커머스 플랫폼 '쿠팡'은 아마존웹서비스(AWS)의 클라우드 시스템을 사용하고 있다. 쿠팡의 경우 서비스 다운타임을 방지하기 위해 주요 서비스 중복설계와 정기 테스팅 등의 대책을 마련하고 있다. 각 서비스는 복수 리전(지역)에 배포돼, 특정 사유로 한 지역이 가용되지 않을 경우에도 대체 가동이 가능하도록 했다.

여가플랫폼 '여기어때' 역시 AWS로 서비스 하고 있다. AWS는 서울 리전내 총 3개 존을 물리적으로 분리된 지역에서 운영하지만, 보안상 이유로 정확한 위치는 공개하지 않고 있다.

넷플릭스는 기본적으로 AWS를 통해 IT 인프라를 운영하지만 LG유플러스 등 국내 통신·미디어기업 통신망에 캐시서버 역할을 하는 오픈커넥트(OCA)를 구축, 원활한 콘텐츠 스트리밍 이용을 지원한다. 시스템을 이원화해 장애 발생 시에도 원활하게 서비스를 제공하기 위한 로드맵이다. 또 AWS 클라우드 내 서비스 장애 발생 상황을 가정한 스트레스 테스트 '카오스 엔지니어링'을 상시 가동하고 있다. 실시간 스트리밍 서비스를 제공하는 넷플릭스 특성을 고려해 다양한 장애 상황을 구현, 데이터 전송 우회 경로를 확보하고 실시간 대응 역량을 길러 장애 발생 시에도 끊김 없는 서비스를 제공하겠다는 취지다.

글로벌 빅테크 기업들의 인프라 투자는 수조원대에 이른다. 구글은 올해 재난복구시스템을 포함한 데이터센터 고도화 작업에 13조원(약 95억달러)이 넘는 금액을 투입했다. 지난 5년 동안 미국 26개주에 데이터센터 구축을 위해 370억달러를 투자했다. 이중화를 넘어 3중화, 4중화 등으로 서비스 안정화에 아낌없이 투자하고 있다.

메타는 8조원(약 55억달러)에 달하는 인프라 투자를 매년 하고 있다. 올해는 8억달러를 투자해 캔자스시티에 대규모 하이퍼스케일(Hyperscale) 데이터센터를 구축한다고 발표했다. 여기에 지난 1일(현지시간) 마크 저크버그 CEO가 유타 이글마운틴 데이터센터에 200만 평방피트 추가해 센터를 짓겠다고 직접 자신의 페이스북에 강조했다.

일각에서는 카카오가 지난 10년 전 유사 사례로 서비스가 4시간 이상 중단된 사태를 겪고도 인프라 투자에 너무 소극적으로 대응한 것이 아니냐는 지적이 나온다. 카카오는 내년 한양대 에리카 안산캠퍼스에 첫 데이터센터를 준공할 예정이다.

업계 한 엔지니어는 “카카오 수준의 기업에서 전력 공급이 끊어질 경우를 대비한 자체 비상 전력을 확보해 놓지 않은데다 백업 데이터를 실시간으로 다른 센터에 구축하기 않았다는 점은 쉽게 이해되지 않는다”고 말했다.

성현희기자 sunghh@etnews.com