[대한민국 희망 프로젝트]<581>스크래핑 기술

최근 정부가 '마이데이터산업 도입 방안'을 발표하면서 '스크래핑' 기술을 배제해 논란이 됐습니다. 유용한 기술 도입을 가로막아 시대를 역행하는 행위라며 반발하는 목소리가 커졌습니다. 빅데이터 시대를 맞아 곳곳에 자리한 자신의 개인정보를 쉽고 편리하게 이용하는데 역할을 해온 기술을 원천 봉쇄하려 한다는 지적이죠. 이름도 생소한 스크래핑 기술이 무엇인지 알아보겠습니다.

Q:스크래핑 기술은 무엇인가요?

A:스크래핑 기술은 시스템이나 웹 사이트에 있는 정보(데이터) 가운데 필요한 정보를 자동으로 뽑아내서 제공하는 소프트웨어(SW) 기술입니다. '긁어내다'는 뜻을 지닌 영어 단어 '스크랩(scrap)'에서 연상되듯이 웹 사이트나 데이터베이스 곳곳을 뒤져 사용자가 원하는 정보를 모아줍니다. 2000년대 들어 웹 사이트 콘텐츠를 수집·저장하는 정보화 기반 기술로 많이 활용됐어요.

쉽게 예를 들어볼까요? 모바일 게임을 여러 가지 하고 있다면 각 게임마다 캐릭터 레벨이나 미션 진행 상황, 게임머니 등이 다를 거 에요. 매번 따로 접속해서 확인하려면 불편하고 시간이 많이 걸리죠. 스크래핑 기술이 적용된 모바일 게임 캐릭터 관리 서비스가 있다면 여러 게임의 현재 캐릭터 상태를 한 번에 확인할 수 있어요. 미리 입력해둔 인증 정보를 바탕으로 스크래핑이 캐릭터 정보를 모아서 보기 쉽게 가공해주는 구조입니다.

Q:스크래핑 기술은 어디에 쓰이나요?

A:기술이 개발된 초기에는 주로 많은 재산을 가진 자산가의 금융 정보를 편하게 조사하기 위해 도입됐습니다. 여러 금융사에 흩어져 보관된 고객 금융정보를 한데 모아 쉽게 관리하기 위해서죠. 우리나라에서도 2000년대 초 개인자산관리 서비스나 기업자금관리 분야에 스크래핑 기술을 도입했습니다. 요즘에는 금융사뿐 아니라 공공기관이나 일반 기업 등 전 산업 분야에서 활발하게 쓰입니다.

가장 쉽게 스크래핑 기술을 접할 수 있는 분야는 역시 금융 서비스 쪽입니다. 현재 19개 은행을 포함해 카드, 증권, 보험, 저축은행, 상호금융 등 140개 금융사와 500여개 공공·유통 기관이 스크래핑을 사용합니다. 일본, 중국 등 30여개 국가 2500여개 금융기관 글로벌 정보 서비스에도 스크래핑이 활용됩니다.

최근에는 브로콜리나 뱅크샐러드처럼 신용·체크카드 이용 내역을 하나하나 입력하지 않고도 자동 정리하는 모바일 가계부 서비스가 인기를 끌고 있는데요. 여기에 적용된 핵심 기술이 바로 스크래핑입니다. 처음에 공인인증서 한번만 등록하면 이용자 신용카드나 은행계좌 등으로부터 정보를 자동으로 수집해 정리합니다. 가입한 보험을 한 번에 통합 관리해주는 보맵, 레몬클립 등 서비스도 스크래핑 기술을 쓰고 있어요.

Q:스크래핑 기술 장점은 무엇인가요?

A:최근 금융권에서는 비대면 거래 수요가 커지고 있습니다. 비대면 거래란 '얼굴을 마주보고 하지 않는 거래'라는 의미인데요. 은행에 직접 찾아가지 않고 온라인이나 모바일로 금융서비스를 이용한다는 뜻이에요.

은행 일을 보려면 여러 가지 증명 서류를 제출해야 하는데 온라인, 모바일에서는 어떻게 할까요? 여러 기관이나 사이트에서 매번 보안프로그램을 설치하고 증명서를 떼려면 힘들겠죠? 이럴 때 바로 스크래핑 기술이 쓰입니다. 한 번만 인증하면 나머지 번거로운 일은 모바일뱅킹 서비스 등에 적용된 스크래핑 시스템이 알아서 하는 거죠. 요즘 인기를 끌고 있는 카카오뱅크, 케이뱅크 등 인터넷전문은행도 스크래핑 기술을 적극 활용합니다.

Q:스크래핑 기술은 보안이 위험한가요?

최근 정부는 마이데이터 시장 활성 정책을 내놓으며 '스크린 스크래핑' 기술에 보안상 허점이 있어 정보 취득 및 이용을 제한한다는 내용을 담았어요. 청천벽력 같은 소식에 스크래핑 기술을 이용하던 금융권과 스크래핑 기술 전문 업체, 핀테크 기업 등이 깜짝 놀랐죠.

금융당국은 금지 이유로 호주에서 발생했다는 대규모 개인·금융정보 유출 해킹 사례를 언급했는데요. 해당 사건을 역추적한 결과 일부 사실과 다른 내용이 있었다고 합니다. 스크래핑 소프트웨어가 해킹당한 게 아니라 피싱 공격으로 관리자 계정과 비밀번호가 탈취돼 사고가 발생했던 거죠.

보안 업계 등에 따르면 최근 정보 유출 사고 사례 가운데 스크래핑에 의한 해킹은 나오지 않았습니다. 국내 주요 스크래핑 사업자는 전자금융업자로 금융감독기관으로부터 정기 점검을 받고요. 대부분 스크래핑은 인증정보를 사용자가 직접 입력하는데, 서버 기반 스크래핑 역시 정보보호 법규를 준수해 운영되고 있습니다.

◇웹 데이터 수집의 기술. 타쿠로 사사키 지음, 역자 김경록, 한빛미디어

'디지털 데이터'를 '되도록 쉽게, 그리고 효율적으로 웹에서 수집하는 방법'을 설명하는 책이다. 데이터 수집 효율을 극대화하기 위해 프로그램을 개발하기도 하지만 이 책은 웬만하면 많은 사람이 사용할 수 있도록 엑셀과 구글 스프레드시트 같이 구하기 쉽고, 특별한 프로그램 환경 구축이 필요치 않은 애플리케이션을 이용한다. 프로그래밍 경험이 없는 사람이라도 쉽게 따라할 수 있도록 모든 절차를 자세히 설명하고 있으므로 누구든 안심하고 데이터 수집의 자동화 세계에 입문할 수 있다.

◇R로 배우는 코딩, 장용식, 강희구 공저, 생능출판사

코딩 학습을 하기 위해서는 어떤 언어를 선택하면 좋을까? IT 전공과 무관한 독자는 코딩 학습을 어떻게 시작하면 좋을까? 'R로 배우는 코딩'은 이 물음에 답하기 위해 저술됐다. 이제는 구문보다는 문제를 해결하는 절차 위주로 생각하고, 그에 맞는 라이브러리를 잘 활용하는 방법을 공부해야 할 때다. 코딩을 처음 접하거나 빅데이터 분석에 관심 있는 초보자들에게 R로 배우는 코딩은 매우 유용한 책이다.

박정은기자 jepark@etnews.com