Un récent article dans Nature Communications présente ProtBFN, un modèle de fondation puissant pour la conception de séquences de protéines avec 650 millions de paramètres. ProtBFN utilise des réseaux de flux bayésiens pour générer des séquences diverses et cohérentes sur le plan structural sans recourir à des données structurales explicites. Le modèle offre une génération de protéines inconditionnelle et conditionnelle, surpassant les modèles autoregressifs et de diffusion leaders. Il produit des séquences qui correspondent à la longueur naturelle et aux distributions d'acides aminés. Une variante affinée, AbBFN, est également disponible pour les chaînes lourdes d'anticorps, démontrée sur l'espace des anticorps observés (OAS). ProtBFN permet la conception zéro-shot, produisant des protéines valides sans réentraînement, ce qui en fait un outil versatile pour la conception de thérapies et d'enzymes industrielles. Les réseaux de flux probabilistes du modèle offrent à la fois une flexibilité générative et une cohérence structurale, répondant aux besoins fondamentaux de l'ingénierie des protéines. Le modèle open-source est installable via pip, permettant aux investigateurs de l'évaluer sur des tâches personnalisées comme la prédiction de stabilité, la conception de liaisons ou la création de protéines thérapeutiques de novo. Les contributions de la communauté sont en cours pour étendre les variantes pré-entraînées et les métriques d'évaluation. ProtBFN a le potentiel d'avoir un impact significatif sur l'ingénierie et la conception des protéines.
dev.to
# ProtBFN: Bayesian Foundation Model for Protein Sequence Design
Create attached notes ...
