국내 연구진이 머신러닝(기계학습)으로 유전체 분석 효율을 극대화할 수 있는 기술을 개발했다.
한국과학기술원(KAIST)은 한동수 전기 및 전자공학부 교수팀이 머신러닝(기계학습)에 기반한 유전체 정렬 소프트웨어(SW)를 개발했다고 12일 밝혔다.
유전체 정렬 SW는 유전체(염기서열 정보 총합) 해독에 쓰인다. 차세대 염기서열 분석은 유전체를 조각으로 잘라내 '참조 유전체(reference genome)'에 기반해 조립하는 과정을 거치는데, 유전체 정렬 SW가 유전체 조각 데이터 조립에 활용된다.
유전체 정렬은 많은 연산이 필요하다. 유전체 조각이 많고 참조 유전체도 길기 때문이다. 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다. 연구팀은 머신러닝 기반 인덱싱(색인) 기법을 유전체 정렬 SW에 최초 적용했다.
연구팀이 개발한 SW는 연산량을 대폭 줄이면서 하버드대·인텔이 개발한 표준 유전체 정렬 SW 'BWA-MEM2'와 동일한 결과를 만들어 낸다.
연구팀의 머신러닝 기반 인덱싱 기법은 주어진 데이터 분포를 머신러닝 모델이 학습, 데이터 분포에 최적화해 인덱싱한다. 유전자 조각 길이와 상관없이 적은 연산량으로 유전자 조각 위치를 찾을 수 있다. 기존 인덱싱 기법 대비 3.4배 가속화됐고 유전체 정렬 SW는 1.4배 가속화됐다.
개발 SW는 오픈소스로 공개돼 많은 분야에 사용될 것으로 기대를 모은다. 다양한 유전체 분석 SW를 가속하는 연구 초석이 될 전망이다.
한동수 KAIST 교수는 “기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬다”며 “앞으로 인공지능(AI) 기술을 활용해 전장 유전체 빅데이터 분석을 효율·고도화할 수 있을 것”이라고 말했다.
한편 이번 연구는 과학기술정보통신부 재원으로 한국연구재단 지원을 받은 '데이터 스테이션 구축·운영 사업'으로 수행됐다. 정영목 KAIST 전기 및 전자공학부 박사과정이 제1 저자로 참여했다. 옥스포드 바이오인포메틱스에 지난 3월 공개됐다.
김영준기자 kyj85@etnews.com