89분간 전국적으로 발생한 10·25 KT 유무선 통신 장애 핵심원인은 전국망에 영향을 줄 수 있는 중요 작업을 협력업체에만 맡겨놓고 확인하지 않은 KT의 관리책임으로 일단락됐다.
KT는 실수와 책임을 인정하면서도 일탈로 예외적인 사례라고 주장했지만, 통신망 관리에 대한 총체적 부실이 드러나며 신뢰가 무너졌다는 비판을 피하기 어렵게 됐다.
정부로서는 KT 주장대로 단순 일탈인 지, 통신사 망 관리 전반에 관리부실이 만연해있는 지 확인하는 게 첫번째 과제다. 코로나19로 통신망의 중요성에 대한 경각심이 높아진 가운데, 10·25 KT 유무선 통신 장애 원인 분석에서 확인된 기술적 쟁점을 검토해 보다 안전한 네트워크를 만들어야 한다. 신뢰와 자율에 맡겼던 부분까지 규제 영역으로 관리해야 하는 상황이 불가피해지면서, 정부의 고심도 깊어질 전망이다.
◇'exit' 명령어 입력실수에서 출발
과학기술정보통신부는 사고 로그기록을 분석한 결과, 10월 25일 11시 16분경부터 시작돼, 12시 45분경 KT의 복구조치가 완료돼 약 89분의 서비스 장애가 발생한 것으로 공식확인했다. KT 부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력한 것이 사태의 1차 원인이라고 봤다.
라우터는 이용자로부터 데이터를 전송받아 데이터가 가야할 곳으로 안내·전송하는 역할을 한다. 옛 전화 교환수·교환기의 역할을 고도화된 컴퓨팅 시스템이 처리하는 것과 같다.
라우터가 정확하게 데이터를 전송하기 위해서는 다른 라우터와 연결을 위한 수만개 이상 주소가 포함된 주소록을 정확하게 갖추고 있어야 한다.
방대한 주소를 관리자가 수기로 입력하는 것은 어렵기 때문에 기존 관리하던 주소록을 소프트웨어(SW) 명령어 형태로 동시에 입력한다. 작업자는 라우터 장비를 교체하면서 주소설정을 위한 명령어 입력 과정에서 마무리 명령어인 'exit'를 누락했고, 라우터는 잘못된 주소록을 갖게됐다.
KT가 교체한 장비는 내부망(IS-IS프로토콜) 전용 라우터였다. 설정 명령을 잘못하는 바람에 KT 내부망을 연결하는 주소록 1만여개가 정확하게 입력되지 않고, 외부망(BGP프로토콜)과 연결하는 3만7000개 이상 주소가 라우터에 동시입력됐다. 이에 따라 데이터가 제대로된 주소를 찾아가지 못하면서 광범위한 장애가 발생한 것이다.
◇KT의 총체적 관리부실
이 과정에서 KT의 심각한 관리 부실이 드러났다. KT 네트워크관제센터는 야간작업(01시~06시)을 승인했지만, 협력업체는 점심시간을 앞두고 주간에 작업을 진행해 피해가 겉잡을 수 없이 확산됐다.
KT 본사 작업관리자 없이 협력업체 직원만 작업을 수행했으며, 네트워크가 연결된 채로 라우팅 작업을 진행했다.
과기정통부가 본인과 당사자, KT 관리자에게 확인한 결과, 주간작업을 한 이유와 관련해 “야간작업을 좋아하는 사람은 없고, 주간작업을 선호하기 때문”이라는 다소 황당한 이유를 확인했다. KT 관리자는 사전 테스트도 진행하지 않았으며, 다른 업무가 있다며 자리를 비운 것으로 나타났다.
라우터 작업 외주화 자체를 KT가 외부에 위험을 떠넘기는 형태로 책임을 회피한 것으로 보긴 어렵다. 라우터 초기 세팅 등을 위해 기기에 대해 지식이 충분한 제조사 또는 협력업체와 공동작업은 필수다. 그럼에도 네트워크 운영회사로서 라우팅 주소를 협력업체에 전달하고, 제대로 입력됐는지 확인하는 것은 명백한 KT의 책무다.
세탁기를 구입해 바쁘다는 이유로 열쇠까지 설치기사에게 맡긴 이후에 확인도 하지 않은 상황에 비유할 수 있다. 세탁기 연결수도에서 물이 새서 집안 뿐만 아니라 남의 집까지 물바다로 만든 상황이다. KT 과업지시서대로 이행하지 않은 것은 협력업체의 책임일 수 있지만, 관리책임은 KT가 명확하게 져야할 것으로 보인다. 네트워크장비기업 관계자는 KT가 협력업체에 구상권을 청구하는 것도 어려울 것이라고 봤다.
◇기술적 예방조치 미흡
기술적 예방조치도 미흡했다. KT는 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템이 미흡한 것으로 나타났다.
KT 네트워크 내부프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있었다. 부산국사 라우터에 잘못된 라우팅 정보가 입력되자 지역전체를 관리하는 부산 백본 라우터에 잘못된 정보가 전달됐다. 이 정보는 곧바로 우리나라 통신망 전체를 관리하는 서울센터 라우터로 전달됐고, 결과적으로 30초만에 전국망 마비사태를 불러왔다. 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드도 존재하지 않았다.
KT 중앙관제센터는 부산 라우터 문제 발생을 인지하자마자, 전체 망에서 차단시키고, 잘못된 명령어를 발견해 수정하는 데 89분을 소요했다. 당초 디도스 공격가능성을 공표하며 혼선을 야기한 것은 문제이지만, 전체 네트워크를 대상으로 신속하게 문제원인을 파악하고 복구한 것은 네트워크 관리역량 측면에서는 우수성을 보여준다는 일부 견해도 있다.
◇정부 후속 제도개선 '고심'
과기정통부는 사고 발생 4일만에 전격적으로 원인분석결과를 발표했다. KT 관제센터와 부산 등 현장답사를 통해 수만개 이상 로그기록을 직접 확인한 결과, 외부 해킹, 디도스 등 원인을 둘러싸고 다양한 의혹이 지속되는 상황을 조기에 수습하려한 것으로 풀이된다.
의혹은 해소됐지만, 이번 사태와 같은 관리 부실이 KT 전국망 관리에 만연해있는지, 다른 통신사도 통신망을 이와같이 관리하는지 의문은 남았다. 이번 사태를 '일탈이 이루어진 예외적인 사례'로 규정했다. 그러나, 과기정통부는 국내 통신사 전반을 확인하겠다는 입장이다.
결과적으로는 당연히 해야할 일을 하지 않으면서, 규제 강화가 불가피하게 됐고, 기본과 신뢰에 맡겨두던 관리를 어디까지 제도화해야 하는지 과기정통부의 고심이 깊어지게 됐다. 방통위는 실질 보상안을 마련하는 일이 과제다.
허성욱 과기정통부 네트워크정책실장은 “야간 작업과 사전 테스트는 기본 상식에 속하는 문제라 정부가 제도적으로 규제를 해야 될 대상인건지, 아닌 건지 솔직히 당황스럽다”며 “이번 사태는 파란 불에 신호등을 건너야 된다는 걸 어겨서 난 교통사고와도 같아, 후속 제도화를 고민하는데 도 어려움이 크다”고 토로했다.
박지성기자 jisung@etnews.com