[ET시론]국가 R&D 미래, '연구데이터'

Photo Image
김재수 한국과학기술정보연구원(KISTI) 원장

수년간 정부 연구개발(R&D) 투자는 신기록을 경신 중이다. 올해 국가 R&D 예산도 29조8000억원의 역대 최대 규모로 편성됐다. 우리가 살길은 과학기술뿐이라는 국민의 믿음 덕분이다. 코로나 사태로 힘들어도 다음 해 심을 씨앗에 결코 손을 대지 않는다는 농부의 지혜와 인내를 떠올리게 한다. 세계는 이전과 비교할 수 없을 정도의 큰 변화를 겪었다. 4차 산업혁명이 도래한 이후 과학기술은 물론 사회경제 전 분야가 인공지능(AI)과 빅데이터 기반으로 빠르게 바뀌고 있다. 디지털 전환 역시 급속도로 진행되고 있다.

R&D는 1세대 관측과 관찰을 통한 경험과학, 2세대 모델링과 일반화를 통한 이론과학, 3세대 컴퓨터 시뮬레이션을 통한 계산과학을 넘어 방대한 연구데이터를 이용하는 방법으로 급격히 변화해 왔다. 첨단 관측·측정 장비 발달에 따라 방대한 연구데이터가 생산되고, 데이터 중심 4세대 연구 패러다임이 도래했다. 일례로 2013년 유럽원자핵공동연구소(CERN)의 뮤온 압출 솔레노이드(CMS)와 아틀라스(ATLAS) 검출기를 통해 생성된 데이터를 분석해 현대 물리학의 난제였던 힉스 입자 존재를 증명한 것이 대표적이다. 검출기에서 생성된 0.001%의 데이터 크기가 10페타(1경) 바이트 정도였다. 이제 연구데이터 없는 연구는 상상하기 어렵다.

Photo Image

기술이 지배하는 기술 패권 시대가 도래했다. 총성 없는 미-중 패권경쟁도 본질은 기술전쟁이다. 글로벌 패권경쟁 패러다임이 국방과 경제에서 기술 중심으로 변화하고 있다. 초연결·초지능·초융합으로 대표되는 4차 산업혁명 시대에서 연구데이터는 과학기술과 산업 발전뿐만 아니라 사회문제 해결까지 활용 범위가 무한대로 확장되고 있다. 연구데이터의 세계적 공유와 개방을 통해 팬데믹, 기후변화 같은 인류의 위기를 공동으로 타개하고자 하는 오픈사이언스에 대한 국제사회의 요구 역시 더욱 높아지는 상황이다.

유네스코는 공적자금을 투입한 연구 산출물의 글로벌 공개 및 공유를 위한 오픈사이언스 권고를 채택했다. 주요 선진국은 새로운 지식, 가치 창출과 공유·확산을 위해 연구데이터 관리 제도화, 연구데이터 공유·활용 인프라 지원, 연구자 가이드라인·교육 제공 등 주요 정책을 추진하고 있다. 연구데이터 재활용은 연구데이터 수집, 가공, 처리 등에 투자되는 시간과 비용을 절감해 R&D 주기를 획기적으로 단축하고 연구데이터의 공개를 통해 연구 재현성을 보장하고 투명성을 확보할 수 있다. 이뿐만 아니라 데이터 기반 커뮤니티 형성으로 학제 간 융합 및 공동 연구를 활성화할 수 있기에 그 중요성의 인식과 사회적 관심이 매우 높아졌다.

미국은 공적 연구자금이 투입되는 과제에 연구데이터 접근성을 높이기 위해 2013년 백악관 과학기술정책국을 통해 연구데이터 관리와 공유 지침을 발표했다. 영국은 공적 자금으로 수행되는 과제의 연구데이터가 공공재로서 최소한의 제한으로 적시에 활용할 수 있도록 하기 위해 2011년 영국연구회 데이터 정책에 관한 공동원칙을 제시했다. 프랑스는 2016년 디지털 공화국 법을 제정해 유럽연합(EU) 공적자금으로 연구비 50% 이상을 지원받은 과제의 연구데이터는 독점권이 출판사에 있는 경우라도 무료로 배포하도록 하고 있다.

우리나라도 국가연구개발혁신법을 통해 공적 자금으로 생산되는 연구성과를 체계적으로 관리·활용될 수 있는 국가 차원의 토대를 마련한 바 있다. 그간 국내에서 창출되는 국가R&D 연구데이터는 대부분 과제가 끝나면 개별 연구자의 서랍 속에서 사장되는 경우가 많았다. 이유를 찾자면 우선 연구데이터 공유에 대한 연구자의 인식 부족과 방어심리를 들 수 있겠지만 무엇보다 가장 큰 원인은 능동적인 소통과 협력으로 이끌 만한 동력이 부족했다는 것이다.

한국과학기술정보연구원(KISTI)이 실시한 '연구데이터 공유·활용 의식조사'에 따르면 응답 연구자의 절대 다수는 개별 연구자 수준의 관리로는 연구데이터 유실 위험이 매우 크다고 우려하고 있었다. 국가 차원의 체계적이고 일원화된 시스템 구축이 시급하다는 데도 의견을 함께했다. 적절한 제도와 합리적 보상이 있다면 얼마든 자신의 연구 성과를 공개할 의지가 있음을 확인한 것이다.

이렇게 연구데이터 관리와 활용에 대한 정책적 요구가 높아지며 2018년 과학기술정보통신부의 '국가 연구데이터 공유·활용 전략' 발표와 국가과학기술연구회(NST)의 '연구데이터 빅데이터화' 추진계획 등 국가 차원의 연구데이터 공유·활용 전략이 마련됐다. 주요 골자는 연구데이터의 체계적 관리를 위해 국가연구데이터플랫폼 운영을 총괄하는 국가연구데이터센터를 구축한다는 것, 이와 함께 바이오·소재·AI·대형연구장비 등 대분야와 소분야별 전문센터들을 설치해서 데이터 취합·관리 및 활용 촉진을 담당하도록 하자는 것이었다.

Photo Image
국가 연구데이터 관리 체계

KISTI는 국가연구데이터플랫폼인 '데이터온'(DataON)을 구축해 국내외 연구데이터 정보를 한곳에서 통합 검색·공유·관리하고 공동 활용할 수 있도록 제공하고 있다. 2020년 1월에 오픈한 국가연구데이터플랫폼 데이터온이 거둔 대표 성과로는 먼저 연구데이터 리포지터리(NaRDA)의 보급을 통한 국내 연구데이터 수집 및 연계이다. 정부출연연구기관, 정부산하 연구기관 등이 연구데이터를 체계적으로 관리·활용할 수 있도록 하기 위해 KISTI가 자체 개발한 NaRDA를 총 20개 기관에 무상으로 보급했다. 해외 글로벌 연구데이터플랫폼과의 협력 및 데이터 연계를 적극적으로 추진해 유럽의 OpenAIRE, 호주의 ARDC, 일본의 IRDB 등 세계 최고 연구데이터플랫폼들과 연계하고 있다.

분야별 연구데이터 수집을 위해 대형 연구장비 분야 연구데이터(GSDC), AI 및 인공지능 분야 연구데이터(AIHub)와도 연계돼 있다. 이 같은 노력을 통해 데이터온은 작년 말 기준 9개 기관 3만3000여 데이터셋의 국내 데이터와 유럽·호주·일본 등 약 113만 데이터셋 해외 데이터를 연계해 연구자들이 필요로 하는 국내외 연구데이터를 제공하고 있다.

데이터온에서 제공하는 인공지능(AI)·3D·사물인터넷(IoT)·뇌영상·드론 등 데이터를 활용해 구름이동 예측, 도로에서의 사물 인식, 과일의 당도 예측, 대뇌피질 특성 분석, 항만의 대기오염 분석 등 다양한 연구를 진행해 왔다. 특히 KISTI가 구축한 400기가바이트(GB) 인체영상 데이터는 3D 기술과 접목돼 의대생과 연구원 등을 위한 교육용 수술·해부 시뮬레이션 툴인 '가상 해부 테이블'을 생산하는 데 활용되고 있다. 해당 제품을 생산한 미국 실리콘밸리 기업 아나토마지와 올해 기술이전 계약을 정식 체결할 예정이다.

하지만 작은 성공에 만족할 수는 없는 일이다. 데이터온이 대한민국 오픈사이언스 마중물이 되기 위해 넘어야 할 산들은 당장 해결해야 할 국가센터 지정 문제 외에도 무수히 많다. 최근 추진 중인 바이오 데이터 스테이션 및 소재 연구데이터 플랫폼과 데이터온 연계를 강화하고, 연구자들의 연구데이터 개방과 공유를 촉진할 인센티브 및 성과인정 체계 마련도 시급하다. 유네스코, 경제협력개발기구(OECD)와 주요 선진국이 이미 한발 앞서 추진 중인 오픈사이언스 법제화를 국내에서도 신속하게 추진해야 한다. 건강하고 창의적인 연구데이터 공유·활용 생태계 조성을 위해 연구자들의 적극적인 참여와 국가 차원의 투자가 확대되기를 바란다.

김재수 한국과학기술정보연구원(KISTI) 원장 jaesoo@kisti.re.kr

<필자소개> 김재수 KISTI 원장은 30여년간 KISTI에서 근무 중이다. 데이터, 소프트웨어(SW) 분야에서 활약했다. 2008년부터 9년 동안 NTIS 사업단장을 지냈고, 국가과학기술데이터본부장직도 맡았다. 과학기술연합대학원대학교(UST) 과학기술정책 전공 책임교수, 차세대 정보컴퓨팅기술개발 사업추진위원회 민간위원을 역임하고 빅데이터 민간 합동 태스크포스(TF) 위원으로도 지냈다. 한국융합학회 상임고문, 한국기술혁신학회장, 한국콘텐츠학회 부회장, 한국정보관리학회 부회장 등 학회 임원도 거쳤다.


브랜드 뉴스룸