출처: 매일경제 2021년 1월 22일자 [매경의 창]
2012년 세계이미지인식대회(ILSVRC)에서 캐나다 토론토대 제프리 힌튼 교수 팀이 혁명을 일으켰다. 2등과 에러율 10%포인트 이상 차이로 우승을 해 딥러닝 열풍을 불렀다. 구글 계열사인 딥마인드는 2016년 알파고로 두 번째 혁명을 일으켰다. 딥러닝을 탐색 알고리즘 틈에 끼워넣어 세계 최고의 바둑기사를 이겼다. 딥마인드는 다음 문제로 게임과 단백질 폴딩 문제를 지목했다. 단백질 폴딩은 단백질의 염기서열이 접혀서 만드는 3차원 구조를 알아내는 문제다. 유명한 난제이고, 오늘 칼럼의 주제다.
약물은 저마다 특정 단백질을 타깃으로 한다. 작용을 돕거나 방해한다. 자물쇠와 열쇠처럼 약물의 입체 구조가 단백질의 입체 구조와 잘 맞물려야 한다. 과거에는 경험적으로 "어떤 식물을 먹으면 병이 낫더라"는 식의 정보를 기초로 이런저런 성분을 추출해서 시험해 보는 식이었다. 타깃 단백질이 뭔지 모르고 개발되기도 했다. 대개 지난한 시행착오 끝에 유용한 약이 탄생했다. 이제는 과학이 발전해 질병에 영향을 미치는 단백질의 인과관계 체인을 추적할 수 있게 됐다. 이 과정 중 한 단백질과 입체 구조가 잘 맞는 서열을 만들면 약이 될 가능성이 크다. 그런데 이 3차원 구조 예측 문제가 어마어마하게 어려운 문제라 세기의 도전이라는 별명이 붙었다. 컴퓨터로 후보 서열을 도출한다 해도 예측 정확도가 낮아 일단 실물을 만들어 보면 거의 다 실패한다. 드물게 성공하면 대박이 터진다. 이런 기대감으로 매출 50억원에 100억원 적자가 나는 바이오 기업이 5조원의 시가총액을 가지기도 한다.
1972년 노벨 화학상을 받은 크리스티안 안핀센이 단백질의 아미노산 서열이 전적으로 3차원 구조를 결정할 것이라고 추정했다. 1994년 몰트와 피델리스 두 사람이 예측 기술을 촉진하기 위한 경연대회인 CASP를 오픈했다. 격년으로 대회를 연다. 구조가 알려진 단백질을 학습용으로 제공하고 구조가 파악됐지만 공개되지 않은 단백질의 구조를 추정한 품질로 평가한다. 단백질은 수천~수만 개의 아미노산으로 구성된다. 아미노산 서열에서 예측한 입체 구조와 실제 단백질 구조의 모든 아미노산 끄트머리 위치를 비교해서 유사도 점수가 90 이상이면 대략 맞는다고 간주한다.
알파고가 이세돌을 이긴 2016년까지는 1등이 유사도 40 아래에 머물렀다. 대회를 시작하고 22년이나 흐른 후다. 가이드라인 기준 90을 고려하면 터무니없는 수준이었다. 이로부터 2년 후 딥마인드가 60점 근처의 압도적 점수로 우승한다. 프로그램 이름은 알파폴드이고 딥러닝으로 만들어졌다. 2등은 여전히 40점 아래였다. 놀라웠지만 실용적으로 의미 있는 수준은 아니었다. 2년이 더 흐른 2020년 알파폴드는 92.4라는 놀라운 기록으로 다시 우승했다. 가장 어려운 단백질 모음에 대해서도 87 수준으로 맞혀 집행부에서 알파폴드가 속임수를 쓰지 않나 의심했다고 한다. 17만여 개의 단백질이 포함된 대형 데이터베이스를 사용했다.
이건 바둑과는 산업적 차원이 다르다. 글로벌 제약사들 매출은 1000조원이 넘는다. 후보 약물을 만들기 전에 입체 구조를 컴퓨터에서 거의 파악할 수 있게 돼 신약 개발의 혁명이 일어날 것이다. 신약이 쏟아져 나올 것이다. 우리나라도 컴퓨터 장비에 몇십억 원 정도 투자할 여력이 있는 기업에서는 이 흐름에 동참할 시기가 왔다.
컴퓨터 전공자들이 바빠질 일 투성이다. 수도권정비계획법으로 손을 못 대던 서울대 컴퓨터 관련 학부 정원이 20명 늘었다. 턱없이 부족한 숫자지만 교육부에서 그 불합리한 벽을 처음으로 깼다. 행정부에서 보기 힘든 용기를 보였다. 그래도 서울대 컴퓨터공학부는 70명에 불과하다. 500명이라도 부족하다. 지금 증원을 해도 7~8년은 지나야 그 인력들이 기여하기 시작하니 이미 시간을 많이 잃고 있다.