[ET시론]바이오AI 강국을 위한 인공지능의 '4하 원칙'

영화 스파이더맨을 떠올려보자. 주인공 피터 파커는 유전자가 조작된 거미에게 물린 뒤 비정상적으로 강한 힘과 민첩성을 갖게 된다.

물론 현실에서 이런 일은 일어나지 않는다. 하지만 이 설정을 조금 더 과학적으로 상상해 보는 것은 흥미롭다. 피터 몸 속에 들어온 거미 유전자는 세포 안으로 들어가고, 그 유전자에 담긴 정보에 따라 세포는 거미 단백질 분자를 만들어낸다. 유전자가 설계도라면, 단백질은 실제로 일을 하는 부품이다. 이렇게 만들어진 거미 단백질은 세포 안에서 다른 부품의 기능을 조절하며 세포 기능을 변화시키고, 그 변화가 몸 전체로 확장되면서 스파이더맨 능력으로 나타난다고 생각할 수 있다.

이러한 공상적 설정은 한 가지 중요한 사실을 직관적으로 보여준다. 생명체는 여러 부품이 서로 연결된 복잡한 구조체지만, 특정 단백질 같은 한 요소에 의해 크게 영향을 받는다는 점이다.

인간이라는 복잡한 생명체가 약 2만개의 유전자만으로 이뤄졌다는 사실은 놀랍다. 동시에 우리는 점점 생명의 작동 원리를 이해하는 데 가까워지고 있다는 점에서 희망적이기도 하다.

Photo Image
2024년 노벨 화학상 수상자와 주요 업적

단백질이 분자 수준에서 어떻게 작용하는지를 밝히는 연구는 수십년 동안 20여개의 노벨상을 만들어낸 핵심 주제였다. 더 나아가 실험 없이 컴퓨터로 단백질 구조를 계산하는 것은 반세기 넘게 풀리지 않던 난제였다. 이를 인공지능(AI)으로 해결한 구글 딥마인드 알파폴드에 2024년 노벨화학상의 절반이 주어졌다. 단순 기술적 진보를 넘어, 과학 문제를 AI로 풀어갈 수 있다는 새로운 가능성을 보여준 사건이다.

여기에 상상을 한 걸음 더해보면, 거미 유전자를 실험실이 아니라 컴퓨터에서 설계하는 미래를 떠올릴 수도 있다. 현실적으로는 난치병을 치료하거나 생명을 연장할 수 있는 기능성 분자를 설계하는 AI 기술이 이미 태동하고 있다. 실제로 2024년 노벨화학상의 나머지 절반은 원하는 기능을 가진 단백질을 설계하는 연구에 돌아갔다.

앞으로 어떤 미래가 펼쳐질지는 지금 우리가 무엇을 하느냐에 달려 있다. 그렇다면 우리는 어떤 선택을 해야 할까.

필자는 이를 수년 전부터 '인공지능의 4하 원칙'이라는 개념으로 설명하고 있다. AI를 과학에 적용할 때 반드시 점검해야 할 네 가지 질문이다.

Photo Image
'인공지능의 4하 원칙'과 제언

무엇을 풀 것인가(문제 정의), 무엇으로부터 시작할 것인가(데이터), 어떻게 풀 것인가(AI 모델), 얼마나 잘하고 있는가(평가 방법).

이 네 가지는 서로 독립된 요소가 아니라 긴밀하게 연결됐다.

첫째, 무엇을.

문제 정의가 출발점이다. 단백질 구조 예측은 이미 반세기 넘게 중요성이 분명했던 과학적 난제였다. 알파폴드의 성과는 이 오래된 문제를 AI가 실제로 풀 수 있는 형태로 정교하게 다루고, 그에 맞는 모델과 학습 전략을 제시했다는 데 있다.

그러나 앞으로의 문제는 그렇게 명확하지 않은 경우가 많다. 단백질이라는 부품이 세포에서 어떤 역할을 하고, 그것이 생명현상으로 어떻게 이어지는지를 이해하는 방향으로 확장하는 것은 자연스러운 흐름이다. 하지만 이를 실제로 풀 수 있는 문제로 단계적으로 정의하는 일은 결코 간단하지 않다.

또한 중요한 점은 알파폴드가 생체 분자 구조를 완전히 이해한 것은 아니라는 사실이다. 초기에는 그렇게 보였지만, 시간이 지나면서 한계가 점차 드러나고 있다. 여전히 많은 단백질에서 구조 예측이 어려우며, 특히 중요한 생명현상이나 치료제 개발과 관련된 대상에서도 해결되지 않은 문제가 남아 있다. 첫 번째 돌파구 이후에 마주한 더 어려운 과제다.

분자 수준의 혁신을 넘어, 다음 단계 문제를 어떻게 정의할 것인지가 중요하다. 예를 들어 'AI 세포 모델'은 하나의 방향이다. 불과 몇 년 전만 해도 공상과학처럼 들렸지만, 최근 의미 있는 진전이 나타나고 있다. 여전히 초기 단계지만, 세포에서 인간까지 연결되는 모델이 구현된다면 바이오 학문과 산업 패러다임을 바꿀 수 있다.

둘째, 무엇으로부터. 즉 데이터다.

문제 정의와 데이터는 분리될 수 없다. 어떤 문제를 풀 것인지에 따라 필요한 데이터가 결정되며, 기존 데이터를 어떻게 활용할지도 같은 맥락에서 중요하다.

주어진 데이터로 다양한 AI 모델을 만들 수는 있다. 그러나 데이터 기반의 AI가 실제 문제를 해결하려면, 데이터 규모와 질이 문제 복잡성을 감당할 수 있어야 한다. 이러한 이유로 문제 정의와 데이터는 긴밀하게 연결됐다. 특히 과학 데이터는 생산에 시간과 비용이 많이 들기에, 무엇을 측정하고 어떤 데이터를 축적할 것인지에 대한 전략적 판단이 필수적이다.

바이오헬스 산업 발전을 위해서는 '바이오-의료 연계 데이터'가 중요하다. 이는 분자·세포 수준의 '바이오' 데이터와 환자 임상 효과에 대한 '의료' 데이터가 연결된 것으로, 질병 원인과 치료 효과를 분자 수준에서 이해하기 위해 필수적이다. 이러한 데이터가 있어야 AI를 통한 진정한 바이오 혁신이 가능하다.

셋째, 어떻게.

알파폴드의 혁신은 단순한 AI 적용이 아니라 과학적 이해를 바탕으로 한 모델 설계에 있었다. 이는 존 점퍼가 노벨상 수상 강연에서 강조한 '화학적·생물학적 직관을 AI 모델에 반영하는 것'과 같은 맥락이다.

혁신적인 바이오AI는 단순하게 데이터를 활용하는 전략만으로 만들어지기 어렵다. 생명현상이라는 문제의 복잡성이 매우 크기 때문에, 도메인 과학자의 통찰과 AI 기술이 결합할 때 비로소 의미 있는 성과가 나올 수 있다.

넷째, 얼마나 잘. 즉 평가다.

알파폴드의 발전에는 CASP라는 국제 평가 체계가 중요한 역할을 했다. 덕분에 문제 정의와 평가 기준이 함께 발전했다. 반면 현재 많은 AI 연구는 논문 중심으로 평가된다. 논문만으로는 실제 성능을 정확하고 객관적으로 판단하기 어렵다. 특히 바이오AI에서는 데이터 생산과 모델 평가가 함께 수행되는 체계가 필요하다.

이제 다시 4하 원칙으로 돌아가 보자.

주어진 상황에 맞는 현실적인 문제 정의 없이는 의미 있는 AI가 나올 수 없다. 적절한 데이터 없이는 문제를 풀 수 없다. 올바른 접근법 없이는 성능을 끌어올릴 수 없다. 정확한 평가 없이는 발전이 지속될 수 없다.

이 네 가지는 따로 존재하는 것이 아니라 서로 얽혀 있는 문제다.

바이오AI 강국이 되기 위해 필요한 것은 단순한 기술 투자만이 아니다. 문제, 데이터, 방법, 평가를 함께 설계하는 국가적 전략이 필요하다. 글로벌 정보기술(IT) 기업과 제약사가 앞다퉈 바이오AI에 투자하고 있는 지금, 국가 경쟁력을 위해 전략적인 바이오AI 생태계 설계가 절실하다.

알파폴드는 하나의 돌파구였지만, 그 뒤에는 수십년간 축적된 데이터와 과학적 통찰, 평가 체계가 있었다. 다음 알파폴드는 우연히 나오지 않는다. 우리가 어떤 문제를 선택하고, 어떤 데이터를 만들며, 어떻게 평가하느냐에 달렸다.

Photo Image
석차옥 서울대 화학부 교수·갤럭스 대표

석차옥 서울대 화학부 교수·갤럭스 대표 chaokseok@galux.co.kr

〈필자〉서울대 화학과를 졸업하고 미국 시카고대 화학 석사·박사 학위 취득했다. 이후 시카고대, 메사추세츠공과대, 캘리포니아대 등에서 박사후연구원으로 활동했다. 계산생물학, 단백질 구조 예측 등을 연구 분야로 삼으며 주요 단백질 예측 플랫폼 개발 프로젝트에 참여했다. 서울대 화학부 교수로 활동하며 2020년 인공지능(AI) 기반 단백질 설계·신약 개발 기업 갤럭스를 설립했다. 2025년에는 AI의 연구개발 활용과 과학 주권 확보를 한국과학AI포럼 창립을 주도했다.

브랜드 뉴스룸