회사원 e씨는 최근 친구로부터 한 통의 전화를 받고 당황했다. 가족홈페이지에서 가족관계와 주소 및 휴대폰 번호 등이 모두 검색엔진에 나오더라는 것이다. 파일은 안전할 줄 알고 웹페이지에 올려놓았던 것이 화근이었다.
최근 들어 웹 검색엔진의 성능이 과거에 비해 월등히 향상되면서 구글(Google) 등 일부 검색엔진에서는 HTML로 작성된 웹페이지의 내용은 물론 웹사이트에 올려놓은 PDF나 DOC 같은 문서파일 내용까지도 검색이 가능해지고 있다. 지난해 5월 한 유선방송사업자의 웹사이트에서 고객 6000여명의 개인정보 명단이 인터넷 검색엔진을 통해 유출된 것도 바로 이런 케이스.
특히 가족·동창회·동아리 홈페이지 등은 주소록이나 회원근황 파일을 자료실 등에 올려놓은 경우가 비일비재해 검색엔진을 통한 개인정보 유출위험도 증가하고 있다.
이에 따라 검색엔진 전문가들은 정보유출을 방지하기 위한 일반 홈페이지 운영자들의 각별한 주의와 기술적인 대비책 마련이 필요하다고 지적한다.
일차적인 조치로는 ‘인터넷 검색엔진 배제표준(Robots Exclusion Protocol)’을 적용하는 것이다. 인터넷 검색엔진 배제표준이란 보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹페이지를 작성하는 방법을 기술한 국제기술표준이다. 모든 검색로봇이 이 표준을 따르지는 않지만 일반 웹사이트 개발자들이 손쉽게 적용할 수 있어 이용이 확산되고 있다.
서버관리자가 웹페이지 HTML 작성시 맨 위에 검색로봇을 배제한다는 의미의 ‘File:robots.txt’, ‘User-agent: *’, ‘Disallow: /’ 등을 적어놓으면 검색로봇의 검색 대상에서 제외된다. 일반 웹페이지에서도 와 같은 메타태그를 입력하면 검색을 피할 수 있다.
물론 배제표준 적용시 검색엔진을 통한 홈페이지 광고의 가능성마저 차단될 수 있으므로 표준적용시 옵션을 신중히 살피고 유출되면 곤란한 정보가 있는 페이지에 대해서만 선별해 적용하는 세심함도 요구된다.
이와 함께 이런 표준을 무시하고 개발되는 악성 검색엔진을 막으려면 이 배제표준과 함께 ‘로그인(Login)’을 동시 적용해야만 한다. 회원으로 등록한 사용자가 로그인을 해야만 해당 파일에 접근할 수 있도록 함으로써 파일 내용이 검색로봇 등에 바로 노출되지 않도록 하는 방법이다. 지난해 개인정보분쟁조정위원회에 접수된 피해구제 신청건수 중 대다수가 사용자 인증기능의 미비에 의해 비롯되고 있는 점만 보더라도 필수적인 조치다.
특히 초기화면이나 게시판 중 일부 페이지에만 적용되도록 해서는 원천적인 정보유출을 차단하기 어렵고 웹페이지 전체에 걸쳐 로그인 기능이 철저히 작동되도록 해야만 한다는 것이 전문가들의 한결 같은 지적이다.
이와 관련 다음커뮤니케이션의 곽기봉 검색기술팀장은 “일반 홈페이지 개발자들이 검색엔진의 작동방식을 잘 모르는 탓에 중요한 정보가 검색엔진을 통해 무방비로 유출되곤 한다”며 “인터넷 검색엔진 배제표준은 적용하기 손쉬우면서도 차단효과가 뛰어나므로 일반에 널리 확산될 필요가 있다”고 강조했다.
<정소영기자 syjung@etnews.co.kr>
SW 많이 본 뉴스
-
1
정보보호기업 10곳 중 3곳, 인재 확보 어렵다…인력 부족 토로
-
2
새해 빅테크 AI 에이전트 시대 열린다…데이터 편향·책임소재 해결은 숙제
-
3
새해 망분리 사업, '국가망보안체계'로 변경 요청…제도 안착 유인
-
4
AI기본법 국회 통과…AI데이터센터 등 AI산업 육성 지원 토대 마련
-
5
'초거대 AI 확산 생태계 조성 사업', 완성도 높인다
-
6
박미연 아란타 영업대표 “국내 첫 온라인 용역 통제시스템 위즈헬퍼원, 국내외 투트랙 공략”
-
7
한눈에 보는 CES 2025 'CES 2025 리뷰 & 인사이트 콘서트' 개최한다
-
8
“기업이 놓쳐서는 안 될 UX·UI 트렌드 2025 세미나” 1월 16일 개최
-
9
난개발식 국민소통 창구···'디플정' 걸맞은 통합 플랫폼 필요성 커진다
-
10
농어촌공사, 120억 ERP 우선협상대상자에 아이에스티엔·삼정KPMG 컨소시엄
브랜드 뉴스룸
×