군 작전 시스템에도 적용…정부 유전자 데이터, 아마존에서 무료 공개
미 오바마 행정부가 빅데이터 기술 개발에 팔을 걷어붙였다.
29일(현지시각) 미 대통령 직속 기관인 과학기술정책실(Office of Science and Technology Policy)은 2억달러((한화 약 2260억 원) 이상을 투입해 빅데이터 기술을 개발한다는 “빅데이터 연구개발 이니셔티브(Big Data Research and Development Initiative)를 발표했다.
29일 미 백악관 웹사이트(www.whitehouse.gov)에 포스팅된 빅데이터 연구개발 이니셔티브에 따르면, 오바마 행정부는 방대하고 복합적인 디지털 데이터 군집에서 지식과 통찰력을 추출해내는 능력을 향상시킬 수 있도록 빅데이터 관련 연구개발에 2억 달러 이상을 투입한다. 이 이니셔티브가 현재 미국이 당면한 과제 대부분을 해결해줄 수 있을 것으로 표현했다.
◇주요 국가기관 일제히 참여=미국의 빅데이터 연구개발 이니셔티브에는 과학기술정책실 외에 국립과학재단(National Science Foundation, NSF), 국립보건원(National Institutes of Health, NIH), 국방부(Department of Defense, DoD), 고등방위연구계획국(Defence Advanced Research Projects Agency, DARPA), 에너지부(Department of Energy, DoE), 지질조사원(Geological Survey, USGS) 등 주요 6개 연방정부기관이 협력하게 된다.
유전자 연구 및 의료, 교육, 지구과학 등 빅데이터 활용 효과가 뛰어난 분야의 기관들이 우선 참여한 것이다. 또한 국방 부문에서도 군사 행동에 필요한 데이터 수집과 결정에 빅데이터를 활용할 계획이다. 이들은 방대한 디지털 데이터로부터 연구결과를 모으고 조직화하며 액세스하는 데 필요한 툴과 기술들을 크게 개선시킬 것으로 기대했다.
과학기술정책실장이자 대통령 과학기술보좌관인 존 P. 홀드런 박사는 포스트에서 “슈퍼컴퓨팅, 인터넷 등 그동안 정부의 IT 연구개발 투자로 드라마틱한 발전을 이끌어온 것과 같이 오늘 발표한 빅데이터 연구개발 이니셔티브는 과학연구, 환경과 생물의학 연구, 교육, 국가 보안 등에 빅데이터를 활용할 수 있도록 해줄 것”이라고 말했다.
◇차세대 데이터 사이언티스트 육성도 포함=미 과학기술정책실이 발표한 빅데이터 연구개발 이니셔티브에는 △대량의 데이터를 수집·저장·보관·관리·분석·공유하는 데 필요한 첨단 핵심 기술을 발전시킬 것 △과학과 엔지니어링 연구 속도를 높이고 국토 보안을 강화하며 교육 및 학습을 혁신시키는 데 이 기술들을 활용할 것 △빅데이터 기술을 개발, 활용하는 데 필요한 인력을 확대할 것 등이 포함된다.
미 국립과학재단과 국립보건원은 대용량의 다양한 데이터 세트로부터 유용한 정보를 추출, 가시화, 분석, 관리하는 핵심 과학 및 기술을 발전시키게 된다. 특히 국립보건원은 영상, 세포, 분자, 전기생리학, 화학, 행태, 전염병학, 임상, 그리고 기타 건강과 질병에 관련된 데이터 세트에 관심을 갖고 있다.
국립과학재단은 데이터로부터 지식을 추론하고 사회에 데이터를 제공·관할 및 관리하는 새 방법론을 포함해 포괄적인 장기 전략을 구현한다. 대학들이 차세대 데이터 과학자(데이터 사이언티스트)와 엔지니어를 육성할 수 있도록 학제들 간의 교육 프로그램을 개발하도록 독려하는 것도 포함된다.
이와 함께 미 캘리포니아 버클리대학에 기반을 둔 컴퓨팅 원정대(Expeditions in Computing) 프로젝트에 1000만 달러의 기금을 투입해 데이터를 정보로 전환하는 세 가지 접근법을 통합하도록 지원할 계획이다. 세 가지 어프로치란 기계학습(machine learning. 자신의 동작을 스스로 개선할 수 있는 슈퍼컴퓨터의 능력), 클라우드 컴퓨팅, 크라우드 소싱이다.
이와 함께 ‘어스큐브(EarthCube)’ 시스템을 지원하기 위한 1차 지원금을 제공한다. 어스큐브는 지구과학자들이 지구과학 정보에 액세스하고 분석, 공유할 수 있도록 해주는 시스템이다.
또 대학생들이 복합적인 데이터에 대해 그래픽 및 가시화된 기술을 사용할 수 있도록 하기 위해 연구 트레이닝 그룹에 훈련시키는 데에 200만달러의 상금을 주기로 했다. 통계학자와 생물학자들의 연구그룹에는 140만달러를 제공해 단백질 구조와 생물학적 경로를 규명하도록 지원한다.
◇국방부, 빅데이터 활용해 군사작전 자율시스템 구현=미 국방부는 빅데이터 연구개발 이니셔티브에서 큰 부분을 차지한다. 국방부가 투입하는 예산은 새로운 연구 프로젝트에 사용될 6000만 달러를 포함해 연간 2억5000만달러다.
국방부는 빅데이터 기술 개발로 다음과 같은 일련의 프로그램들을 개발, 각 군성들과 공유할 계획이다. 우선 새로운 방법들로 대용량 데이터를 활용해 인지, 지각, 결정을 제공하는 자율시스템을 지원하는 프로그램을 구현할 계획이다. 이 자율시스템은 스스로 결정하고 군사 행동을 수행하는 것이다.
또 상황인식 능력을 개선시켜 전투원과 군 분석가들을 돕고 군사 작전 지원 능력을 배가시키는 프로그램을 도모한다. 미 국방부는 전 세계 어떤 언어의 텍스트에서도 정보를 추출해 군 분석가들의 분석 능력을 100배 이상 향상시키는 것을 목표로 하고 있다. 또한 분석가들이 관찰할 수 있는 대상, 활동, 사건(이벤트) 숫자도 증가시킬 수 있다.
미 국방부는 이 같은 빅데이터 활용 프로그램을 구현하기 위해 앞으로 몇 개월 동안 상금을 걸고 현상 공모를 할 계획이다.
미 고등방위연구계획국(DARPA)은 XDATA 프로그램을 시작했다. XDATA 프로그램은 4년 동안 연간 2500만달러를 투자해 대용량 데이터를 분석할 수 있는 컴퓨팅 기술과 소프트웨어를 개발하는 것이다. 분석 대상 데이터는 준(semi)정형 데이터(표, 관계형, 카테고리형, 메타데이터)와 비정형 데이터(텍스트 문서, 메시지 전송)를 둘 다 포함한다.
이러한 프로그램을 구현하기 위해 DARPA는 △데이터 분산 저장 환경에서 불완전 데이터(imperfect data)를 처리하는 확장형 알고리듬을 개발하고 △다양한 임무들에 대해 시각적 추론을 신속히 커스터마이징할 수 있도록 인간과 컴퓨터 간의 효과적인 상호작용 툴을 개발할 계획이다.
XDATA 프로그램은 유연한 소프트웨어 개발 환경을 구현하기 위해 오픈소스 소프트웨어 툴킷을 지원할 계획이다. 이는 사용해야 하는 방위 애플리케이션의 임무 워크플로에 적합한 대용량 데이터들을 시각표에 맞춰 처리할 수 있게 해줄 것으로 기대하고 있다.
◇게놈 프로젝트 데이터, 아마존에서 무료 공개=국립보건원은 세계 최대의 인류 유전자 변형 데이터 세트를 아마존 웹 서비스(AWS) 클라우드에서 무료로 공개한다고 발표했다. 이 데이터는 전 세계 1000 유전체 프로젝트((1000 Genomes Project)에서 생성된 것으로, 무려 200TB에 이른다. 종이 문서로는 1600만개의 파일 캐비닛이 필요하고 표준 DVD로는 3만장에 해당되는 용량이다.
1000 유전체 프로젝트의 데이터 세트는 빅데이터 활용의 가장 좋은 예다. 이 프로젝트는 2008년 1월 영국, 미국, 중국이 합작하여 다양한 인종으로 구성된 인간 1000명의 유전체를 3년 내 해독하는 국제 프로젝트다. 하지만 이 데이터 세트들은 너무도 방대해져서 극히 일부 연구자들만이 이를 다룰 수 있는 컴퓨팅 파워를 갖고 있다.
미 국립보건원은 빅데이터 연구개발 이니셔티브 발표에 따라 1000 유전체 프로젝트를 아마존 웹서비스로 이전 저장했다고 발표했다. 연구원들은 이 데이터들을 무료로 사용할 수 있으며 다만 사용한 만큼의 컴퓨팅 서비스에 대한 비용만 지불하면 된다.
미 에너지부는 2500만달러의 기금을 조성해 확장형 데이터 관리, 분석 및 시각화 기관(Scalable Data Management, Analysis and Visualization Institute. SDAVI)을 설립한다. 이 기관은 에너지부 산하 로렌스버클리국립연구소(Department of Energy`s Lawrence Berkeley National Laboratory)가 운영하게 된다.
확장형 데이터 관리, 분석 및 시각화 기관은 6개 국립 연구소와 7개 대학의 전문가들이 협력해 새로운 툴을 개발하는 것을 목표하고 있다. 이 툴은 과학자들이 에너지부 슈퍼컴퓨터 상의 데이터를 관리하고 시각화 할 수 있도록 해주는 것이다. 나아가 에너지부의 연구시설을 사용한 연구 발견 프로세스를 간소화해 시켜주게 된다.
◇오바마 대통령 “빅데이터 기술에 모두의 협력 필요”=마지막으로 미 지질조사원(US Geological Surve)은 존 웰시 파월 분석종합센터(John Wesley Powell Center for Analysis and Synthesis)를 통해 보조금을 지급해 지구시스템과학에 빅데이터를 활용할 계획이다.
이 센터는 대규모 데이터를 유용한 정보로 만드는 데 필요한 협업 툴과 첨단 컴퓨팅 시설, 심도깊은 분석을 위한 장소 등을 제공하게 된다. 이러한 빅데이터 프로젝트로 기후 변화, 지진 재발률, 차세대 생태계 지표종 등에 대한 이해를 증진시켜줄 것으로 기대하고 있다.
미 과학기술정책실의 디렉터인 톰 칼릴은 블로그 포스트에서 “백악관은 업계, 연구대학, 비영리 단체가 정부와 함께 빅데이터에 도전하기를 원하고 있다”며 “오바마 대통령은 빅데이터에 모두가 손을 걷어 부치고 도울 것(all hands on deck effort)을 요구했다”고 말했다.
이번 빅데이터 연구개발 이니셔티브는 오바마 행정부에서 추진하고 있는 다수의 기술 관련 정책 중 하나다. 지난해 오바마 행정부는 취업률을 높이기 위해 연방정부 소유의 기술을 신속히 민간 이전하도록 요구했다. 이에 따라 최근 미 항공우주국(NASA)이 3가지 기술특허를 경매에 내놓을 계획이라고 발표했다.
전자신문미디어 테크트렌드팀
박현선기자 hspark@etnews.com