구글이 세계에 흩어져 있는 정치와 산업, 경제, 사회 전반에 걸친 전문 정보만을 따로 모아 제공한다.
구글은 데이터 검색 엔진 '데이터세트 검색(Dataset Search)'을 5일(현지시간) 공개했다.
데이터세트 검색은 인터넷 사이트에 존재하는 수많은 데이터를 표준화해 보여준다. 일반 사용자보다는 과학자나 학자, 언론 등 전문 정보가 필요한 곳에서 유용하다. 미 우주항공국(NASA)과 미 국립해양대기청(NOAA), 하버드 데이터버스(dataverse.harvard.edu), 미국 최대 사회과학데이터 보관소인 ICPSR 등이 파트너로 참여, 이곳에 축적된 데이터를 손쉽게 찾아볼 수 있다.
에드 컨스 NOAA 최고 데이터 책임자는 “이러한 방식 검색은 많은 연구자의 오래된 꿈”이라면서 “구글 데이터세트 검색은 데이터 공유가 사명인 NOAA 데이터에 사용자가 쉽게 접근할 수 있도록 하는 핵심 도구”라고 말했다.
데이터세트 검색은 논문, 학술지 등을 검색할 때 사용하는 구글 학술검색(Google Scholar) 엔진과 유사하다. 여기서 검색하면 해당 사이트와 디지털 도서관, 개인 웹 페이지 등 다양한 곳에 있는 표나 그래프, 출판물 등 찾을 수 있다.
특정 주제를 검색하면 왼쪽에는 해당 자료명과 출처, 업데이트 날짜 등이 나열되고, 오른쪽으로 링크와 학술검색 인용 여부, 다운로드 형식, 자료 설명이 나온다.
예를 들어 일일 기상정보를 분류하고 싶으면 데이터세트 검색에서 'daily weather'를 찾으면 된다.
구글 측은 “수많은 사이트와 수많은 데이터가 존재하지만 각기 다른 곳에 다른 방식으로 존재하기 때문에 이를 찾고 분석하기 쉽지 않다”면서 “가이드라인에 따른 표준화된 형태로 정리된 데이터를 손쉽게 검색할 수 있도록 특화했다”고 소개했다.
사용자를 위한 가이드라인도 만들었다. 데이터 세트 작성자, 게시 날짜, 데이터 수집 방법, 데이터 관련 용어 등을 담았다. 구글과 마이크로소프트, 야후가 정형 데이터 검색을 표준화하고 검색을 쉽게 할 수 있도록 만든 스키마닷오알지(Schema.org)의 표준이 기반이다.
국내에서도 사용할 수 있다. 다만 해외 자료만 검색 가능하다. 검색어도 한국어는 아직 지원하지 않는다.
구글 측은 “데이터 세트를 더욱 눈에 띄게 하려는 전략 중 하나”라면서 “우선은 언론에 중점을 두고 있지만 과학과 정부, 언론 등이 제공하는 데이터를 원하는 잠재고객에게 더욱 유용할 것”이라고 말했다.
유창선 성장기업부 기자 yuda@etnews.com