국세통계 활용도 높인다…재현자료 구축 추진

Photo Image

국세청이 국세 데이터 활용도를 높이기 위한 재현자료(Synthetic Data) 구축을 추진한다.

국세청은 개인정보보호가 중요한 국세 데이터 특성을 반영한 재현자료 구축 방안을 마련해 데이터 활용도를 높일 계획이라고 15일 밝혔다.

국세청이 보유한 국세 데이터는 주요 정책 결정 기준이 되는 소득자료를 포함하고 있다. 때문에 사회 관심과 정책, 연구 분야에서 수요가 증가하는 추세다. 코로나19로 인한 선별 지원금 지급과 소상공인 피해를 지원하는 과정에서도 국세청의 부가가치세 데이터가 활용됐다.

국세청은 국세 데이터에 대한 수요 증가에 대응하기 위해 2018년 세종시에 위치한 본청에 국세통계센터를 설치했다. 2020년에는 서울지방국세청 지하 1층에 분원을 만들었다. 이어 지난해에는 국세통계센터 홈페이지 NTS데이터랩을 개통해 중앙행정기관, 지방자치단체, 정부출연연구원, 국회, 대학, 공공기관, 민관연구기관으로 이용 대상을 넓혔다.

그러나 국세청이 보유한 국세 데이터를 자유롭게 활용하기는 여전히 어려운 상황이다. 개인 소득자료는 민감한 개인정보이기 때문이다. 실제로 국세통계센터는 보안시설로 운영된다. 이 때문에 국세 데이터는 매스킹 등 전통적인 비식별 기법을 적용해 제공된다. 이러한 비식별조치는 원자료 일부를 변형시켜 식별 위험성은 낮아지지만 자료 훼손, 관계 왜곡으로 유용성은 저하된다.

국세청은 개인정보보호와 데이터 활용 중요성이 상충하는 상황에 대한 대안으로 재현자료 구축을 제시했다.

재현자료란 실제 데이터를 기반으로 생성한 모의 데이터(Simulated Data)로 개인정보보호 등 이유로 실제 데이터에 접근하는 게 어려운 경우 사용한다. 재현자료는 실제 데이터와 달리 법적인 제약이 적고 여러 버전으로 많은 양을 만들 수 있다.

이번 연구용역을 통해 다양한 기법을 적용한 재현자료에 대한 국내외 사례를 분석하고 구축에 필요한 예산 등을 산출할 계획이다.

재현자료 우선 구축 대상은 활용 빈도가 높은 종합소득세, 근로소득세 등 소득 분야다. 시범 구축된 재현자료로는 데이터 활용도와 정보 노출 위험을 점검한다.

국세청 관계자는 “연구 결과를 토대로 소득세 분야에서 재현자료를 시범 구축하고 이를 통해 정보보호와 통계 활용성 간 상충관계를 최소화하겠다”며 “재현자료 활용을 바탕으로 국세통계센터 온라인 서비스 확대 기반도 마련할 것”이라고 말했다.


최다현기자 da2109@etnews.com


브랜드 뉴스룸