Conception de novo Les protéines recèlent un immense potentiel pour obtenir des combinaisons supérieures de nouvelles fonctions et propriétés mécaniques, faisant ainsi progresser les applications biologiques et d’ingénierie. Cependant, tester le grand nombre de séquences d’acides aminés probables, en plus des coûts expérimentaux associés à la conception de nouvelles protéines avec des propriétés ou des caractéristiques structurelles ciblées, reste un défi.
Dans une récente étude publiée dans la revue Chimieles chercheurs utilisent des modèles de diffusion basés sur l’attention pour générer efficacement de nouvelles séquences de protéines avec des structures secondaires prescrites.
Étude: Conception générative de protéines de novo basée sur des contraintes de structure secondaire à l’aide d’un modèle de diffusion basé sur l’attention. Crédit d’image : PopTika / Shutterstock.com
À propos de l’étude
Dans la présente étude, les chercheurs discutent de deux modèles d’apprentissage en profondeur génératifs qui prédisent les séquences d’acides aminés et génèrent des structures tridimensionnelles (3D) pliées de protéines basées sur les contraintes de conception des structures secondaires à travers la structure par résidu ou le contenu global.
L’équipe s’est concentrée sur les propriétés mécaniques des protéines pour l’analyse et la cartographie entre les séquences primaires d’acides aminés et les structures secondaires des protéines. Les modèles considéraient les descriptions de conditionnement comme des entrées pour produire des séquences d’acides aminés par diffusion conditionnelle basée sur l’attention.
Les méthodes AlphaFold et OmegaFold ont été utilisées pour générer des structures de protéines 3D. Deux modèles ont été formés à l’aide de l’ensemble de données Protein Data Bank (PDB).
Le modèle A a reçu des entrées fractionnaires des structures secondaires protéiques, tandis que le modèle B a considéré les données par résidu des structures secondaires comme entrées pour construire des modèles de protéines 3D et prédire les séquences d’acides aminés des protéines. Les modèles étaient capables de produire des échantillons pour affiner davantage les séquences en sélectionnant les échantillons les mieux adaptés qui satisfaisaient le plus les entrées de conditionnement ou ceux qui présentaient le moins de similitude avec des protéines connues.
Les modèles de diffusion utilisaient des réseaux de neurones convolutifs U-Net avec un transformateur interconnecté et une superposition convolutive, des connexions de saut et des modules d’attention pour identifier le bruit à chaque étape pour une suppression ultérieure.
Le de novo les protéines ont été comparées à l’évaluation critique de la prédiction de la structure (CASP) -14 et 15 protéines cibles en effectuant l’analyse de l’outil de recherche d’alignement local de base (BLAST) pour évaluer la nouveauté des protéines. Les modèles génératifs ont construit des séquences de protéines à partir de signaux aléatoires sous conditionnement en inversant le processus de diffusion étape par étape. Huit paramètres associés à la structure secondaire des protéines ont été évalués à l’aide des codes Define Secondary Structure of Proteins (DSSP).
Pour le modèle A, les paramètres du vecteur de conditionnement comprenaient une hélice α, une conformation de feuille β parallèle et/ou antiparallèle étendue, trois, quatre ou cinq tours liés à l’hydrogène, un paramètre non structuré, un pont β, 3/3dix hélice, hélice π et coudes.
Pour le modèle B, cinq cas avec différentes distributions de structure secondaire ont été considérés. Celles-ci comprenaient une feuille β prédominante, une longue hélice α avec un disjoncteur au centre, une petite hélice α, une feuille β prise en sandwich entre deux domaines α-hélicoïdaux et une protéine hélicoïdale partiellement désordonnée.
Résultats de l’étude
Les modèles de diffusion se sont avérés concevoir efficacement des protéines avec des spécifications de structure secondaire et de novo séquences d’acides aminés qui n’ont pas été découvertes auparavant.
Les modèles génératifs ont fourni des résultats robustes, même pour des entrées de type imparfait et des conceptions irréalistes. En conséquence, l’utilisation de ces modèles a le potentiel d’être élargie pour générer des protéines avec d’autres propriétés cliniquement et fonctionnellement pertinentes.
Le modèle basé sur la structure secondaire par résidu était plus précis et a donné des séquences d’acides aminés plus diverses, en particulier pour les structures α-hélicoïdales.
Les deux modèles ont géré des objectifs de conception variés de manière robuste et ont proposé de nouvelles approches pour découvrir des matériaux et des systèmes protéiques supérieurs. L’analyse du modèle A a identifié plusieurs cas dénotatifs, tels que ceux avec une teneur élevée en feuille β, un mélange de teneur en feuille α-hélicoïdale et β, une teneur en hélice α pure, des hélices α significativement désordonnées et des protéines complètement désordonnées.
L’analyse AlphaFold et OmegaFold de l’assemblage prédit du brin β dans des structures filamenteuses d’ordre supérieur a donné des résultats comparables. L’analyse BLAST a prédit des structures similaires aux séquences d’acides aminés existantes qui pourraient être améliorées en augmentant les probabilités de conditionnement ou en ajoutant du bruit aux vecteurs de conditionnement pendant l’entraînement.
Les résultats du modèle B ont montré un bon accord avec les objectifs de conception, confirmant ainsi que le modèle générateur de protéines pouvait concevoir de novo protéines avec spécifications géométriques et localisation de la structure secondaire. Le développement de modèles fournissant des coordonnées atomiques détaillées pourrait améliorer la conception des protéines.
Pour le modèle B, l’analyse BLAST a indiqué une similarité de 50 à 60 % entre les protéines existantes et les protéines générées. Le modèle B a généré des protéines plus efficacement que le modèle A.
conclusion
L’étude actuelle rapporte deux modèles d’apprentissage en profondeur qui peuvent prédire les séquences d’acides aminés et les structures protéiques 3D en fonction des objectifs de conception de la structure secondaire. Ces nouveaux modèles sont robustes, fiables et peuvent générer de nouvelles séquences de protéines non encore découvertes à partir de mécanismes ou de systèmes naturels.
Les modèles ont généré des séquences de protéines avec les conformations de structure secondaire souhaitées. Ces données pourraient être intégrées pour obtenir une séquence protéique à l’aide du modèle A, tandis que le modèle B pourrait être utilisé pour affiner la séquence en spécifiant le détail au niveau des résidus des structures secondaires.
Les modèles cherchent non seulement à respecter les entrées conditionnelles, mais aussi à céder aux contraintes sous-jacentes des structures secondaires physiquement possibles apprises pendant la formation. Cette approche a le potentiel d’accélérer la conception de nouvelles protéines à utiliser en médecine, dans l’industrie et dans d’autres applications de bio-ingénierie.
Des recherches supplémentaires doivent inclure un conditionnement supplémentaire, explorer les propriétés fonctionnelles des protéines générées pour diverses propriétés au-delà des objectifs structurels, telles que l’activité biologique, et améliorer la diversité des séquences par rapport à celles des protéines existantes.