마이크로소프트 오픈소스 새로운 단백질 생성 인공지능 EvoDiff

단백질은 신체에서 중요한 세포 기능을 수행하는 천연 분자이며 모든 질병의 구성 요소입니다. 단백질을 특성화하면 질병을 늦추거나 역전시키는 방법을 포함하여 질병의 메커니즘을 밝힐 수 있으며, 단백질을 생성하면 완전히 새로운 약물과 치료법이 개발될 수 있습니다.

입장:

Microsoft 중국 공식 몰 - 홈페이지

그러나 현재 실험실에서 단백질을 설계하는 과정은 컴퓨터 및 인적 자원 측면에서 비용이 많이 듭니다. 이를 위해서는 신체에서 특정 작업을 수행하는 단백질 구조를 찾아낸 다음 해당 구조로 "접힐" 수 있는 단백질 서열(단백질을 구성하는 아미노산의 서열)을 찾는 것이 필요합니다. (단백질이 의도한 기능을 수행하려면 3차원 모양으로 올바르게 접혀야 합니다.)

이렇게 복잡할 필요는 없습니다.

이번 주 마이크로소프트는 단백질 서열을 기반으로 "고충실도"와 "다양한" 단백질을 생성할 수 있다고 주장하는 일반 프레임워크인 EvoDiff를 출시했습니다. 다른 단백질 생성 프레임워크와 달리 EvoDiff는 대상 단백질의 구조적 정보가 필요하지 않으므로 일반적으로 가장 힘든 단계를 제거합니다.

마이크로소프트의 케빈 양(Kevin Yang) 수석 연구원은 EvoDiff가 오픈 소스화되면 새로운 치료법과 약물 전달 방법을 위한 효소는 물론 산업 화학 반응을 위한 새로운 효소를 만드는 데 사용될 수 있다고 말했습니다.

EvoDiff의 공동 창시자 중 한 명인 Yang은 이메일 인터뷰에서 TechCrunch에 "우리의 비전은 EvoDiff가 구조 기능 패러다임을 넘어 프로그래밍 가능한 서열 우선 설계를 향해 단백질 공학의 역량을 확장하는 것입니다"라고 밝혔습니다. "EvoDiff를 통해 우리는 새로운 단백질을 제어 가능하게 설계하기 위해 실제로 구조가 필요하지 않고 '단백질 서열만 있으면 된다'는 사실을 입증했습니다."

EvoDiff 프레임워크의 중심에는 다양한 단백질 종과 기능적 클래스의 데이터에 대해 훈련된 640개 매개변수 모델이 있습니다. (매개변수는 AI 모델이 훈련 데이터에서 학습하는 것이며 본질적으로 문제를 처리하는 모델의 기술을 정의합니다(이 경우에는 단백질 생성).) 모델 훈련을 위한 데이터는 서열 정렬의 OpenFold 데이터세트와 UniProt 컨소시엄에서 관리하는 단백질 서열 및 기능 정보 데이터베이스인 UniProt 데이터세트의 하위 집합인 UniRef50에서 가져옵니다.

EvoDiff는 안정 확산 및 DALL-E2와 같은 많은 최신 이미지 생성 모델과 구조가 유사한 확산 모델입니다. EvoDiff는 거의 전적으로 노이즈로 구성된 시작 단백질에서 점차적으로 노이즈를 빼는 방법을 학습하여 천천히 단계별로 단백질 서열에 접근할 수 있도록 합니다.

EvoDiff가 단백질을 생성하는 과정.

확산 모델은 새로운 단백질(예: EvoDiff) 설계부터 음악 작곡, 음성 합성까지 이미지 생성을 넘어선 영역에서 점점 더 많이 사용되고 있습니다.

EvoDiff의 또 다른 공동 기여자이자 Microsoft의 수석 연구원인 Ava Amini는 이메일을 통해 "[EvoDiff에서] 한 가지 교훈이 있다면 다양성, 확장성 및 모듈성을 지원하기 때문에 서열에서 단백질을 생성할 수 있고 생성해야 한다는 것입니다."라고 말했습니다. "우리의 확산 프레임워크는 우리에게 이를 수행할 수 있는 능력을 제공하고 또한 이러한 단백질이 특정 기능적 목표를 달성하도록 설계되는 방법을 제어할 수 있게 해줍니다."

Amini의 주장에 따르면 EvoDiff는 새로운 단백질을 생성할 뿐만 아니라 기존 단백질 디자인의 "간극"을 메워줍니다. 예를 들어, 단백질의 특정 부분이 다른 단백질과 결합하는 경우 모델은 일련의 기준을 충족하는 해당 부분 주위에 단백질의 아미노산 서열을 생성할 수 있습니다.

EvoDiff는 단백질 구조가 아닌 "서열 공간"에서 단백질을 설계하기 때문에 궁극적으로 최종 3차원 구조로 접히지 못하는 "무질서한 단백질"을 합성할 수도 있습니다. 정상적으로 기능하는 단백질과 마찬가지로, 무질서한 단백질도 다른 단백질의 활성을 강화하거나 감소시키는 등 생물학 및 질병에서 중요한 역할을 합니다.

EvoDiff에 대한 연구가 적어도 아직까지는 동료 검토를 거치지 않았다는 점을 지적하는 것이 중요합니다. 이 프로젝트에 참여한 Microsoft 데이터 과학자인 Sarah AlAMDari는 프레임워크가 상업적으로 사용되기 전에 "아직 수행해야 할 확장 작업이 많다"고 인정했습니다.

Alamdari는 이메일을 통해 "이것은 단지 6억 4천만 개의 매개변수 모델이며, 이를 수십억 개의 매개변수로 확장하면 세대 품질이 향상될 수 있습니다"라고 말했습니다. "우리는 몇 가지 대략적인 전략을 시연하면서 더 미세한 제어를 달성하기 위해 EvoDiff가 텍스트, 화학 정보 또는 원하는 기능을 지정하는 기타 수단에 따라 조절되기를 바랍니다."

다음으로 EvoDiff 팀은 실험실에서 생성된 단백질에 대한 모델을 테스트하여 작동 여부를 확인할 계획입니다. 성공하면 차세대 프레임워크에 대한 작업을 시작할 것입니다.