[보안칼럼]스크래핑, 해킹·피싱을 넘어선 새로운 사이버 위협

Photo Image
하영빈 에버스핀 대표

최근 왕왕 발생하는 스크래핑은 해킹·피싱과 함께 주요 사이버 위협으로 급부상했다. 웹페이지의 정보를 자동으로 수집·처리하는 매크로라 불리는 흔한 프로그램도 스크래핑 기술의 일종으로, 이 둘은 본질적으로 다르지 않다. 콘서트나 인기 공연 티켓 예매 시 이러한 자동화 프로그램은 일반 소비자의 구매 기회를 박탈하고, 암표상들이 웃돈을 붙여 재판매해, 소비 불평등을 심화시킨다. 대학 수강신청이나 병원 진료 예약에서도 유사한 피해가 발생해 교육 기회의 불평등과 의료 서비스 접근성 저하로 이어진다.

기업간 합의되지 않은 데이터 스크래핑도 심각한 문제다. 경쟁사의 가격 정보, 상품 데이터, 사용자 리뷰 등을 무단으로 수집하는 행위는 지식재산권 침해일 뿐 아니라, 대상 기업의 서버에 과부하를 일으켜 서비스 품질 저하와 추가 비용 부담으로 이어진다.

금융권이나 이커머스 업계에선 이러한 스크래핑으로 인한 손실이 연간 수천억원에 달하는 것으로 추정된다. 최근 국세청에서 개인 납세자들을 위해 간소화된 환급 서비스를 개시한 것도 스크래핑으로 인한 접속 지연이 원인이었다는 점이 밝혀졌다.


인공지능(AI) 기업들이 학습 데이터 확보를 위해 무분별하게 웹 스크래핑을 진행하면서 원 저작자나 데이터 소유 기업의 권리를 침해하는 사례도 급증하고 있다. 또 스크래핑이 개인정보 유출의 새로운 경로로 활용되고 있어, 소셜 미디어나 구직 사이트에서 무단으로 수집된 개인정보는 타깃 광고, 스피어 피싱, 신원 도용 등 2차 범죄에 악용될 가능성이 높다.

스크래핑 기술은 지속 발전한다. 초기의 단순한 HTML 파싱에서 벗어나 헤드리스 브라우저, 프록시 네트워크 우회, 응용프로그래밍인터페이스(API) 요청 모방, AI 기반 캡차(CAPTCHA) 우회 등 고도화된 기술이 사용되고 있다. 최신 스크래핑 공격은 브라우저 핑거프린팅 우회와 분산형 스크래핑 네트워크를 활용해 기존 보안 시스템을 무력화하는데, 특히 이러한 고급 스크래핑 솔루션이 서비스형 모델로 다크웹에서 쉽게 구매 가능하다는 점이 우려된다.

스크래핑 방지를 위해 기존엔 캡차, 요청 제한, IP 차단, 동적 콘텐츠 로딩, 행동 패턴 분석 등의 방법이 활용됐지만, 이러한 기술들은 빠르게 진화하는 스크래핑 기술에 대응하기 위해 끊임없이 업데이트해야 하는 한계가 있었다. 반면 타깃 환경을 지속적으로 변화시켜 공격자의 분석을 근본적으로 무력화하는 MTD(Moving Target Defense) 기술은 이미 국내 금융권을 통해 그 효과가 검증된 기술이다. 이 기술은 스크래핑 툴이 환경을 분석하고 패턴을 파악하는 것 자체를 원천적으로 차단한다. 이러한 선제적 방어 시스템은 서버 부하를 최소화하면서도 스크래핑과 매크로를 기존 방식보다 훨씬 효과적으로 차단할 수 있다는 점에서 우위를 보인다.

그러나 기술적 방어만으로는 완벽한 대응이 어렵다. 스크래핑이 단순한 '데이터 수집'이 아닌, 심각한 사이버 범죄가 될 수 있다는 인식의 전환이 필요하다. 현재 우리나라에서 스크래핑은 명확한 불법 행위로 규정되지 않은 경우가 많고, 해킹이나 피싱에 비해 처벌 수위나 단속 강도가 현저히 낮다.

스크래핑은 이제 디지털 시대의 주요 사이버 위협으로 인식돼야 한다. 기술적 대응책 개발, 법적·제도적 정비, 사회적 인식 제고가 동시에 이뤄져야 하며, 데이터의 가치가 높아지는 만큼 스크래핑 위협에 대한 종합적인 대응 전략 마련이 시급한 시점이다.

하영빈 에버스핀 대표 hcolumn@everspin.co.kr

브랜드 뉴스룸