대구경북과학기술원(DGIST)이 빅데이터 기술을 적용한 염기서열(올리고뉴클레오티드:단일 나선의 짧은 염기서열) 설계 기술을 세계 최초로 개발했다.
김민수 DGIST 정보통신융합공학전공 교수와 구재형 뇌·인지과학전공 교수 융합연구팀은 구글 검색 방식의 빅데이터 기술을 적용, 정밀하고 빠른 성능을 나타내는 올리고뉴클레오티드 설계 기술(MRPrimerW)을 개발했다고 23일 밝혔다.
연구팀이 개발한 `MRPrimerW`는 사람이나 동식물의 전체 유전자 데이터베이스에 존재하는 모든 후보 올리고뉴클레오티드에 `맵리듀스(MapReduce)`를 기반으로 하는 복잡 알고리즘을 적용했다. 특이성을 갖는 올리고뉴클레오티드들만을 선별하게 된다.
올리고뉴클레오티드는 유전자 염기서열, 맵리듀스는 분산 데이터 처리기술의 일종이다.
연구진은 선별한 올리고뉴클레오티드들을 다시 색인 구조로 변환해 서버에 저장함으로써 검색엔진 구글에서 원하는 정보를 검색하는 것처럼 사용자가 입력한 설계 조건과 목표 유전자에 부합하는 최적의 올리고뉴클레오티드를 정확하고 초고속으로 설계한다.
특이성을 완벽하게 만족하는 올리고뉴클레오티드를 찾기 위해서는 이론적으로 하나의 목표 유전자에 대해 약 30억번, 유전체 데이터베이스의 모든 유전자들에 대해서는 약 900경(10의 16승)번 비교연산이 필요하다. 특이성을 완벽하게 만족하는 올리고뉴클레오티드를 설계하는 일은 난제로 알려져 있다.
`MRPrimerW` 기술은 웹 기반 인터페이스를 바탕으로 사용자가 목표 유전자 수백 개를 입력하더라도 동일한 설계 조건을 만족하는 최적의 프라이머와 프로브 세트를 설계해 검색 결과로 보여준다. 검색 결과가 구해지지 않은 목표 유전자들은 어떻게 설계 조건을 변경해야 검색 결과가 도출되는지 알려준다.
이 기술을 적용하면 유전자 기반의 암 진단, 유전자 변형 농산물(GMO) 탐지, 신종 바이러스 탐지 등 유전자 진단에 광범위하게 사용되는 올리고뉴클레오티드를 정밀하게 설계할 수 있다. 바이오 신약 개발에도 사용할 수 있을 전망이다.
전 세계 올리고뉴클레오티드 합성시장 규모가 매년 10%씩 성장하고 있다. 2020년에는 1조원 규모로 성장할 것으로 예측되고 있다. `MRPrimerW` 기술은 경제적〃산업적 부가가치를 창출할 것으로 기대를 모으고 있다.
김민수 교수는 “빅데이터 분석 기술을 유전자 데이터에 가장 효과적으로 적용한 사례 가운데 하나로 평가받고 있다”며 “앞으로 전 세계 생명정보 소프트웨어 시장에서 우리나라가 해당 기술 분야를 선도하기 위해 지속적으로 노력하겠다”고 밝혔다.
연구 성과는 생물과학 분야 세계적 권위의 국제학술지 `뉴클레익 액시드 리서치(Nucleic Acids Research)` 온라인판에 게재됐다. 정보통신융합공학전공 김혜린 박사과정 학생과 뇌〃인지과학전공 강나나 박사가 제1공동저자로 참여했다.
◆용어설명
올리고뉴클레오티드(Oligonucleotide) : A, C, T, G 네 가지의 뉴클레오티드로 구성된 단일 나선의 짧은 염기서열로 유전자 진단 및 신약 개발 등에 필수적으로 사용된다. 유전자 진단을 위해 진단하려는 유전자의 DNA를 수만, 수억 개 복제하는 증폭 과정이 필요하다.
맵리듀스(MapReduce) : 대규모 데이터를 효율적으로 처리하기 위해 여러 대의 컴퓨터를 활용하는 분산 데이터 처리 기술. 데이터를 개별적으로 처리하는 맵(Map)과 연관된 데이터들을 모아서 처리하는 리듀스(Reduce)의 두 가지 과정으로 구성된다.
대구=정재훈기자 jhoon@etnews.com