연구데이터는 최근 주목받는 연구개발(R&D) 능률 강화 기반이다. 논문이나 특허와 같이 '완성된 성과물'이 아니어서 주목받지 못하지만 활용도가 무궁무진하다. 새로운 유사 R&D 수행에 활용하면 단기간에 추가 성과를 양산할 수 있다. 해외에서는 이미 '오픈 사이언스' 기조에 발맞춰 주요 공유·활용 대상으로 자리매김하고 있다. 우리 정부도 곧 연구데이터 활용 시스템을 구축한다. 연구계와 산업계 전반에서 성과 창출을 가속화하고 협력을 증진하는 기반으로 활용될 전망이다.
과학기술정보통신부(장관 유영민)는 국내 전역 연구개발(R&D) 성과를 모아 체계화하는 '국가연구데이터 플랫폼'을 구축한다. 이를 위한 플랫폼 기능 고도화 설정 작업을 진행하고 있다. 오는 12월 시범 서비스에 나설 방침이다.
국가연구데이터 플랫폼은 그동안 연구자 PC나 책상 안에 잠들어있던 연구데이터를 체계적으로 확보·관리하고 서비스하는 체계다. 국가 R&D 성과에서 나온 것이라면 분야를 가리지 않고 통합 관리해 연구자가 활용할 수 있도록 돕는다. 분야별 기관 및 수행 연구에서 도출되는 연구데이터를 모두 망라한다.
국가연구데이터플랫폼은 지난 1월 정부가 발표한 '연구데이터 공유·활용 전략'에서 처음 모습을 드러냈다. 당시 정부는 주요 핵심 과제 및 개략적인 추진 내용 등을 도출했는데, 이후 전략을 구체화하고 있다.
◇초기에는 검색 기능에 초점…이후 AI 기반 추천·분석기능 더해
12월 시범 서비스 버전은 검색 기능 구현에 초점을 맞춘다. 확보된 연구데이터를 키워드 검색하는데 그치지만 이후에는 AI를 활용한 이용자 맞춤형 추천을 구현, 기능을 강화한다는 목표를 갖고 있다.
연구데이터가 가진 복잡·다양성 때문이다. 연구데이터는 다방면을 다루고 형태도 표, 공식, 이미지 등 다양하다. 단순 검색 기능만으로 필요 연구데이터를 연구자에게 정확하게 연결하기 어렵다는 판단이다. 앞으로 구현될 국가 연구데이터 플랫폼은 이용자 및 데이터 분야별 특성을 AI로 분석해 가장 적절한 연구데이터를 도출할 전망이다.
또 각종 통계를 마련·제공해 이용자가 어느 연구데이터를 활용할지 선택하는 사고의 틀도 마련한다. 분야, 기관, 데이터 유형별 보유·공개·활용 현황 통계 체계를 구축해 이용자 활용을 돕는다.
정부는 플랫폼을 '연구데이터 분석도구화'하는 것도 목표로 두고 있다. 이것 역시 AI 기술을 활용한다. AI 기반 데이터 분석도구를 플랫폼 안에 구현, 과학 난제 해결을 돕는다. 빅데이터를 분석 및 처리하는 유저인터페이스(UI)인 워크플로를 구성하고, 각종 편의성을 돕는 자동화 확장도구를 마련할 방침이다. 향후 한국과학기술정보연구원(KISTI) '슈퍼컴퓨터 5호기'와 같은 슈퍼컴퓨팅 인프라와 연계해 분석 기능을 강화할 예정이다.
분석 기능은 '클라우드화'로 편의성을 극대화한다. 이용자별로 분석 및 저장 클라우드를 제공하고, 시스템 안에서 다양한 분석도구를 활용가능하게 한다. 오픈 API 구성으로 확장성을 높이고, 스마트폰앱과 같이 다양한 디바이스로 활용하도록 하는 기능도 추가할 방침이다.
정부는 추가 연구센터를 마련해 이런 다양한 세부기술 구현에 나서고 있다. 이미 두 곳이 문을 열었다. KAIST에 자리 잡은 'MARS AI 통합연구센터'는 누구나 쓸 수 있는 AI 분석도구를 2024년까지 개발한다. 대구경북과학기술원(DGIST) '암흑데이터 극한활용 연구센터'는 축적 연구데이터를 정제하고 관리하는 기술을 맡는다. 개발 목표 시기는 2025년이다. 이들 센터에서 개발한 기술은 단계적으로 국가연구데이터 플랫폼에 접목할 계획이다.
◇데이터 집약형 대분야 전문센터 지정 검토...소분야 센터도
물론 플랫폼 시스템을 구축했다고 이것이 곧바로 제 기능을 다하는 것은 아니다. 플랫폼 기능 정상화에는 다양한 체계와 물적 기반 확보가 과제로 남는다. 플랫폼에서 제공할 연구데이터를 확보·관리하는 것이 대표 과제다.
정부는 연구데이터 대·소분야 전문센터를 구축해 이를 담당하게 할 계획이다. 분야별로 나뉜 전문센터가 각기 연구데이터를 확보·관리하면, 국가연구데이터 플랫폼이 이를 통합해 서비스하는 방식이다. 바이오 분야를 예로 들면 신약이나 유전체 분야와 같은 소분야를 다루는 전문센터가 각기 연구데이터를 관리하며 바이오 대분야 전문센터와 연계하고, 이런 연계 연구데이터가 다른 대분야 전문센터와 함께 국가연구데이터 플랫폼이라는 틀 안에 편입되는 식이다.
이렇게 수집한 연구데이터는 고유 식별번호를 붙이고 분야나 형태, 출처 기관과 같은 기준을 두고 표준화한다. 국가과학기술지식정보서비스(NTIS)와 같은 외부 정보서비스와 연계해 시너지 효과를 내게 된다.
지금은 대분야 전문센터 지정만 구체화돼 있다. 정부는 현재 데이터 집약형 연구 분야인 바이오, 미래소재, 대형연구장비, 인공지능(AI) 분야에서 우선 대분야 전문센터 지정을 추진하고 있다. 현재 한국생명공학연구원 산하 국가생명연구자원정보센터(KOBIC), 한국정보화진흥원(NIA)이 운영하는 인공지능(AI) 오픈 이노베이션 허브, 한국과학기술정보연구원(KISTI) 글로벌 대용량 실험데이터 허브센터(GSDC)를 우선 대상으로 검토하고 있다.
이후에는 소분야 전문센터 역시 구체화한다. 전국에 산재한 기관 및 연구자로부터 국가 연구데이터 플랫폼까지 이어지는 연결망을 구성하게 된다.
◇연구데이터 지속생산 제도 마련
또 다른 과제는 연구데이터를 지속 생산하고, 플랫폼 안에 편입하는 것이다. 핵심은 국가 R&D를 수행하는 연구자가 연구데이터를 철저히 관리하게 하는 일이다.
정부는 이를 위해 '국가R&D사업 공동관리규정'에 연구제안자로부터 '데이터관리계획(DMP)'을 접수하는 내용을 추가하는 개정 작업에 착수했다. 같은 규정 안에 연구데이터 정의를 담는다. 이밖에 '연구관리 표준매뉴얼'에 연구데이터 관련 연구자 권리 개정도 함께 추진한다.
공동관리규정은 현재 조문 개정안을 도출해 검토하고 있다. 올 하반기 중 국가과학기술심의회 운영위원회를 거쳐 개정 작업을 진행한다.
정부는 곧 모습을 드러낼 국가연구데이터 플랫폼이 우리나라 연구계와 산업계 전반에 큰 여파를 미칠 것으로 보고 있다.
김정원 과기정통부 기초원천연구정책관은 “국가연구데이터 플랫폼 도입으로 연구계에서는 신규 R&D 성과 창출 시간과 비용을 절약하는 효과를 낼 수 있을 것”이라면서 “산업계에서도 기존 연구데이터 검색으로 자신과 맞는 연구 파트너를 빨리 찾아 공동연구를 활성화하는 효과를 낼 수 있다”고 말했다.
<국가연구데이터플랫폼 세부 개발 및 구축 목표>
대전=김영준기자 kyj85@etnews.com