아마존 클라우드 서비스의 장애는 메모리 누수와 모니터링 시스템 장애 때문인 것으로 밝혀졌다.
26일(현지시각) 저녁 늦게 아마존은 자사 웹사이트 포스트를 통해 지난 월요일 미국 노스버지니아에서 발생했던 아마존 웹서비스(AWS) 장애가 데이터 수집 서버의 단순 교체 후 일어났다고 설명했다. 설치된 교체 서버가 DNS 주소를 제대로 전달하지 못했고 이로 인해 일부 서버들이 메시지를 수신하지 못했다는 것이다.
이들 서버가 데이터 수집 서버와의 통신을 계속 시도하려 하면서 메모리 누수(컴퓨터 프로그램이 수행되면서 동적으로 할당한 메모리를 적절하게 취소하지 못해 사용할 수 있는 메모리의 크기가 줄어드는 현상)가 발생했다.
또한 내부 모니터링 경보가 제대로 일어나지 않아 통제 불능 상태에 빠졌다고 설명했다. 이 때문에 시스템은 중단시켜야 했고 수백만의 고객들이 불편을 겪었다. 장애 사고는 월요일 오전 10시(현지시각)에 발생했으며 장애 발생 5시간 만에 문제 원인을 파악했고 다시 1시간 뒤에 정상화했다.
이 서비스 장애 때문에 레디트, 포스퀘어, 마인크래프트헤로쿠, 포켓, 힙채트 등 노스버지니아 지역의 AWS 고객사들이 서비스를 중단해야 했다. 아마존은 과거에도 서비스 장애를 일으킨 바 있다. 아마존의 EBS(Elastic Block Storage) 서버 역시 메모리 누수로 고객 리퀘스트를 처리하지 못한 전적이 있다.
전자신문미디어 테크트렌드팀
박현선기자 hspark@etnews.com