지난 22일 발생한 아마존웹서비스(AWS) 클라우드 장애와 관련해 아직도 정확한 원인을 찾지 못하고 있다. 사고가 난 지 사흘이 넘었지만 아마존 측은 원론에 그친 답변이었다. 홈페이지에 사고 내역을 공지한 게 전부다. 공지문에서 “AWS 서울 리전 일부 DNS 서버에서 오류가 발생했다”면서 “84분 동안 기능이 정지됐고, 지금은 정상으로 작동되고 있다”고 짧게 설명했다. 보상이나 사과는 둘째치고 정확한 원인조차 밝혀내지 못하고 있다.

지금까지 상황을 종합하면 먹통 원인은 해킹과 같은 외부가 아니라 내부 요인으로 보인다. 도메인 정보를 디지털 숫자로 바꿔 주는 도메인(DNS) 서버에 오류가 발생한 것으로 의견이 모아졌다. 그러나 세계를 상대로 서비스하는 아마존이 유독 한국에서만, 그것도 서울리전 DNS만 먹통이 됐는지 관련해서는 아무런 답변이 없다. DNS 장애 역시 관리 소홀로 인한 단순 오류인지 시스템 문제인지 명확하지 않다. 시스템에 장애가 발생하면 흔히 백업 시스템에 연결되는데 이 또한 작동하지 않은 이유가 오리무중이다. 대형 사고가 났지만 원인에 대해서는 기본 설명조차 이뤄지지 않고 있다.

아마존 설명대로 데이터센터가 완전무결하지 않아서 간혹 장애가 발생할 수 있다. 일반 서비스라면 시스템을 보완하고 사후 조치를 밟으면 된다. 클라우드 서비스는 다르다. 앞으로 모든 데이터와 자원이 클라우드 형태로 넘어간다. 대한항공은 민간 기업 처음으로 클라우드를 전격 도입하는 등 공공뿐만 아니라 일반 기업도 관심이 높아졌다. 우려한 보안이나 서비스 안전성이 해결됐다고 봤기 때문이다.

서울리전 먹통 사태는 중요한 사례가 될 수 있다. 전혀 예상하지 못한 사고가 발생했기 때문이다. 내년 1월이면 개인 신용, 고유 식별과 같은 민감 정보까지 클라우드로 활용할 수 있는 '전자금융 감독 규정'이 개정돼 시행된다. 모든 자원이 갈수록 클라우드로 수렴한다는 얘기다. 더 큰 사고를 막기 위해서도 정확한 원인을 알아야 한다. 원인 파악에 소홀하면 자칫 클라우드 서비스 전체로 불똥이 튈 수 있다.