네이처 커뮤니케이션즈(Nature Communications)의 최근 논문에서는 6억 5천만 개의 매개변수를 가진 단백질 염기서열 설계를 위한 강력한 기초 모델인 ProtBFN을 소개하고 있습니다. ProtBFN은 베이지안 플로우 네트워크(Bayesian Flow Networks)를 사용하여 명시적인 구조 데이터에 의존하지 않고 다양하고 구조적으로 일관된 시퀀스를 생성합니다. 이 모델은 무조건적 및 조건적 단백질 생성을 제공하여 선도적인 자기회귀 및 확산 모델보다 성능이 뛰어납니다. 자연적인 길이와 아미노산 분포와 일치하는 염기서열을 생성합니다. 미세 조정된 변형체인 AbBFN은 OAS(Observed Antibody Space)에서 입증된 항체 중쇄에도 사용할 수 있습니다. ProtBFN은 제로샷 설계를 가능하게 하여 재훈련 없이 유효한 단백질을 생성하므로 치료 및 산업용 효소 설계에 다용도로 사용할 수 있습니다. 이 모델의 확률론적 유동 네트워크는 단백질 공학의 핵심 요구 사항에 부합하는 생성 유연성과 구조적 일관성을 모두 제공합니다. 오픈 소스 모델은 pip 설치가 가능하므로 연구자는 안정성 예측, 결합 설계 또는 de novo 치료 단백질 생성과 같은 사용자 지정 작업에서 벤치마킹할 수 있습니다. 사전 학습된 변형 및 평가 메트릭을 확장하기 위한 커뮤니티 기여가 진행 중입니다. ProtBFN은 단백질 엔지니어링 및 설계에 상당한 영향을 미칠 수 있는 잠재력을 가지고 있습니다.
dev.to
# ProtBFN: Bayesian Foundation Model for Protein Sequence Design
Create attached notes ...
