[CIO BIZ+/커버스토리]세계속의 한류 홍보, 알고보니 우물한 개구리

발행일 : 2013-03-11 03:00 업데이트 : 2014-02-14 22:01 지면 : 2013-03-11 17면

관련 통계자료 다운로드 웹사이트 로봇배제 현황

#문화재청은 외국인을 위해 별도로 영문 사이트를 만들어 운영한다. 외국인에게 관심높은 세계 문화유산으로 지정된 `종묘`에 대한 영문 설명 페이지도 있다. 그러나 정작 이를 이용해야 하는 외국인은 해당 영문 페이지를 찾을 수 없다. 구글 등 글로벌 검색 사이트에서 세부적인 영문 안내 페이지를 검색할 수 없기 때문이다. 실제 `Jongmyo Shrine`을 키워드로 검색하면 종묘에 대한 문화재청 영문 안내 페이지는 검색되지 않는다.

#국내 외국인 근로자들이 많아지면서 국세청은 영문사이트를 신설, 한국의 세금 납부 방법에 대해 자세하게 설명해 놨다. 그러나 이 영문 사이트 역시 검색사이트에서 세부 페이지가 검색되지 않는다. 예를 들어 `how much is income tax in korea`라는 키워드로 검색을 하면 국세청 영문사이트의 세부 안내 페이지는 검색되지 않는다. 단지 국세청 영문사이트 초기화면만 나온다.

이는 세계 속에 `한류`를 심겠다는 대한민국 공공기관의 외국인 대상 영문 사이트 현주소다. 공공기관 뿐만 아니다. 세계화를 외치는 국내 대학과 연구소도 마찬가지다. 공공기관과 대학·연구소들이 영문사이트를 만들어 세계화에 나섰지만, 실제로는 우물 안 개구리에 불과하다.

전문가들은 세계적인 검색사이트에서 조차 검색 되지 않는 이유를 웹사이트 담당자의 무지와 정책 담당자의 무관심으로 꼽는다. 대부분 해당 기관 담당자는 검색을 제한해 놓은 사실 조차 모르고 있다.

◇정부부처·대학·연구기관 웹 개방 `심각`

국내 정부부처와 대학, 연구기관의 웹사이트 개방 수준은 현격히 낮다.

숙명여대 웹발전연구소는 작년 7월 정부부처 대상 웹사이트 개방성 평가를 실시했다. 그 결과 43개 부처 중 절반에 이르는 21개 부처의 웹사이트가 개방성이 미흡하다는 지적을 받았다. 행정안전부는 모든 공공기관에게 웹 개방성에 대한 자체점검을 권고했다.

주무부처의 권고에도 불구하고 조사한지 8개월이 지난 현재 웹 개방성을 개선한 기관은 보건복지부·방위사업청 등 일부에 그친다. 지난 1월 인터넷전문가협회와 구글코리아가 2차 조사를 실시한 결과 감사원·국가보훈처·공정거래위원회·국방부·고용노동부·검찰청은 여전히 웹 개방 수준을 개선하지 않았다. 인천시·대전시·울산시·경기도·경상남도·세종시도 검색로봇을 차단했다.

해외 학생을 적극 유치하는 대학의 웹 개방 수준도 미흡하다. 연초 국내 200개 대학과 연구기관을 조사한 결과 30% 이상이 검색을 완전 차단했고, 90% 이상이 일부 차단했다. 영문, 중문 등 외국어 사이트를 별도 만들어 해당 국가 학생을 유치하지만 실제 해당 국가에서는 검색조차 되지 않고 있는 셈이다.

웹 개방성은 세계 대학 평가 시에도 활용되고 있어 글로벌 대학으로 성장하기 위해 시급히 해결할 문제다. 이동휘 구글 소프트웨어엔지니어는 “한국 웹사이트는 콘텐츠 서비스를 능동적으로 제공하기 보다는 우물에 가둬 놓고, 와서 가져가라는 형태의 서비스를 하고 있다”고 지적했다.

◇로봇배제가 검색 차단 대표적 사례

검색이 차단되는 경우는 △로봇배제(robots.txt) 설정 △메타태그 속성 제한 △검색엔진에 대한 비친화적 사이트 △URL 비공개 등의 유형이 있다.

가장 대표적인 유형이 로봇배제 방법이다. 웹사이트에 검색 로봇이 접근하는 것을 방지하기 위해 프로그램에 `robots.txt`를 사용한다. 일반적으로 정보 수집용 로봇이 웹 서버에 접근하면 서버 최상위 디렉터리에서 robots.txt 파일을 불러내 문서에 대한 수집 허용이나 차단을 확인한다.

주로 개인정보 등 비밀정보가 담긴 문서나 페이지에 적용해 검색을 차단한다. 그러나 상당수 홈페이지 담당자는 robots.txt를 잘못 사용하고 있다. 특정 개인정보 등이 담긴 문서가 아닌 전체 웹사이트에 영향을 미쳐 모든 페이지의 검색을 차단하는 원인이 된다. 수원대 홈페이지가 대표 사례다.

검색엔진이 문서정보를 알 수 있도록 안내하는 메타 태그로 검색을 차단하는 경우도 있다. 이중 노인덱스(noindex)는 해당 페이지에 대한 색인을 제한한다. 노팔로우(nofollow)는 검색로봇이 해당 페이지에 수록된 링크를 따라 갈 수 없도록 제한한다. 행정중심복합도시건설청 홈페이지에 일부 노인덱스와 노팔로우가 설정돼 있다.

비표준 기술인 액티브X를 사용하면 웹 호환성에 문제가 있어 검색을 제한한다. 이미지나 플래시를 활용해 본문 텍스트를 표현해도 검색용 로봇이 이미지 안의 글자를 인식할 수 없어 검색이 불가능하다. 한국사회여론연구소와 상명대 홈페이지가 대표적이다. URL이 변경되지 않아 검색로봇이 인지하지 못할 때도 있다. 페이지가 변경될 때마다 URL도 변경되는 것이 일반적이지만 변하지 않는 경우다.

◇로봇제한 내부 정책에 따라 적절히 활용

웹사이트가 검색을 제한했는지를 알 수 있는 방법은 다섯 가지가 있다. 그 방법에 따라 대응방안도 모두 다르다.

로봇배제 방법을 사용했는지는 웹사이트에 접속해 웹사이트 주소 다음에 `/robots.txt`를 추가 입력하고 엔터를 누르면 된다. 페이지에 나타나는 결과에 따라 로봇을 배제했는지를 알 수 있다. 검색로봇 차단은 회사 내부 정책에 따라 적절하게 이뤄져야 한다. 내부 정책이 없다면 보안과 트래픽을 고려해 부분 차단을 하는 것이 효과적이다.

메타 태그 속성을 확인하는 방법도 있다. 메타 태그 속성에 `meta name="googlebot" content="noindex"`라고 돼 있으면 구글 로봇만 제외하는 것이다. 메타 네임 다음에 robots으로 돼 있으면 모든 검색로봇을 차단한다. nofollow는 링크도 차단한다는 의미다. 웹사이트의 소스코드인 메타 태그 기능을 정확히 이해하고 사용해야 한다. 무조건적인 색인 차단과 보안 강화보다는 합리적이고 효율적인 보안정책과 콘텐츠 노출 범위에 대한 기준을 마련해야 한다.

액티브X나 이미지·플래시 설치 여부로 확인하는 방법도 있다. 웹사이트 제작 시 가급적이면 액티브X를 사용하지 말아야 한다. 이미지 위주의 웹사이트는 알트(Alt)태그로 나타내고 본문의 내용 전체를 알트태그에 입력해 최소한의 검색이 가능하도록 해야 한다. 플래시는 가능한 중요 콘텐츠에 사용하는 것은 피해야 한다.

유저 에이전트 스위처(User Agent Switcher)를 이용해 검색차단을 확인하는 방법도 있다. 브라우저의 유저 에이전트 스위치 기능을 이용, 설정한 후 검색을 하면 해당 사이트는 검색로봇이 접근한 것으로 인식한다. 조사자 PC가 웹사이트에 접근할 때 해당 사이트가 로봇을 차단하고 있다면 차단 메시지가 나온다. 유저 에이전트 차단은 방화벽이나 서버에서 이뤄진다. 담당자는 사이트 환경과 보안정책에 맞게 유저 에이전트 차단을 관리해야 한다. URL 변경여부를 직접 확인하는 방법도 있다. 게시판에서 게시물을 클릭했는데 주소가 변경되지 않는 다면 해당 사이트가 URL을 공개하지 않는 것이다.

2차 공공기관·대학 웹개방성 조사개요