Des fibres musculaires qui nous déplacent aux enzymes qui répliquent notre ADN, les protéines sont la machinerie moléculaire qui rend la vie possible.
La fonction des protéines dépend fortement de leur structure tridimensionnelle, et les chercheurs du monde entier s’efforcent depuis longtemps de répondre à une question apparemment simple pour relier la fonction et la forme : si vous connaissez les éléments constitutifs de ces machines moléculaires, pouvez-vous prédire comment ils sont assemblés en leur forme fonctionnelle ?
Il n’est pas si facile de répondre à cette question. Avec des structures complexes dépendant d’interactions physiques complexes, les chercheurs se sont tournés vers des modèles de réseaux de neurones artificiels – des cadres mathématiques qui convertissent des modèles complexes en représentations numériques – pour prédire et « voir » la forme des protéines en 3D.
Dans un nouvel article publié dans Communication Naturedes chercheurs de Georgia Tech et d’Oak Ridge National Laboratory s’appuient sur l’un de ces modèles, AlphaFold 2, pour prédire non seulement la conformation biologiquement active de protéines individuelles, mais également des appariements de protéines fonctionnelles appelés complexes.
Le travail pourrait aider les chercheurs à contourner de longues expériences pour étudier la structure et les interactions des complexes protéiques à grande échelle, a déclaré Jeffrey Skolnick, professeur des régents et titulaire de la chaire Mary et Maisie Gibson à l’École des sciences biologiques et l’un des auteurs correspondants de l’étude. , ajoutant que des modèles informatiques tels que ceux-ci pourraient signifier de grandes choses pour le domaine.
Si ces nouveaux modèles informatiques réussissent, a déclaré Skolnick, « cela pourrait changer fondamentalement la façon dont les systèmes moléculaires biologiques sont étudiés ».
Préparé pour la prédiction des protéines
Créé par le laboratoire d’intelligence artificielle basé à Londres DeepMind, AlphaFold 2 est un modèle de réseau neuronal d’apprentissage en profondeur conçu pour prédire la structure tridimensionnelle d’une seule protéine en fonction de sa séquence d’acides aminés.
Skolnick et son collègue auteur correspondant, Mu Gao, chercheur principal à l’École des sciences biologiques, ont partagé que le programme Alphafold 2 avait très bien réussi dans les tests à l’aveugle effectués au 14e itération de l’expérience communautaire sur l’évaluation critique des techniques de prédiction de la structure des protéines, ou CASP14, un concours biannuel où des chercheurs du monde entier se réunissent pour tester leurs modèles informatiques.
« Pour nous, ce qui est frappant à propos d’AlphaFold 2, c’est qu’il fait non seulement d’excellentes prédictions sur des domaines protéiques individuels (les modules structurels ou fonctionnels de base d’une séquence protéique), mais qu’il fonctionne également très bien sur des séquences protéiques composées de plusieurs domaines », Skolnick a partagé. Et donc, avec la capacité de prédire la structure de ces protéines complexes et multi-domaines, l’équipe de recherche a entrepris de déterminer si le programme pouvait aller un peu plus loin.
Les interactions physiques entre les différents [protein] les domaines de la même séquence sont essentiellement les mêmes que les interactions qui collent différentes protéines ensemble. Il est rapidement devenu évident que des modifications relativement simples d’AlphaFold 2 pourraient lui permettre de prédire les modèles structuraux d’un complexe protéique. »
Mu Gao, auteur correspondant et chercheur principal, École des sciences biologiques, Georgia Institute of Technology
Pour explorer différentes stratégies, Davi Nakajima An, un étudiant de quatrième année à l’École d’informatique, a été recruté pour se joindre à l’effort de l’équipe.
Au lieu de brancher les caractéristiques d’une seule séquence de protéines dans AlphaFold 2 selon sa conception originale, les chercheurs ont joint les caractéristiques d’entrée de plusieurs séquences de protéines ensemble. Combiné avec de nouvelles mesures pour évaluer la force des interactions entre les protéines sondées, leur nouveau programme AF2Complex a été créé.
Tracer un nouveau territoire
Pour mettre AF2Complex à l’épreuve, les chercheurs se sont associés au centre de calcul haute performance, Partnership for an Advanced Computing Environment (PACE), de Georgia Tech, et ont chargé le modèle de prédire les structures de complexes protéiques qu’il n’avait jamais vus auparavant. Le programme modifié a pu prédire correctement la structure de plus de deux fois plus de complexes protéiques qu’une méthode plus traditionnelle appelée docking. Alors qu’AF2Complex n’a besoin que de séquences de protéines en entrée, l’amarrage repose sur la connaissance préalable des structures protéiques individuelles pour prédire leur structure combinée en fonction de formes complémentaires.
« Encouragés par ces résultats prometteurs, nous avons étendu cette idée à un problème encore plus important, qui consiste à prédire les interactions entre plusieurs protéines choisies arbitrairement, par exemple, dans un cas simple, deux protéines arbitraires », a partagé Skolnick.
En plus de prédire la structure des complexes protéiques, AF2Complex a été chargé d’identifier lesquelles parmi plus de 500 paires de protéines étaient capables de former un complexe. En utilisant des métriques nouvellement conçues, AF2Complex a surpassé les méthodes d’amarrage conventionnelles et AlphaFold 2 pour identifier les paires arbitraires connues pour interagir expérimentalement.
Pour tester AF2Complex à l’échelle du protéome, qui englobe toute la bibliothèque de protéines d’un organisme pouvant être exprimées, les chercheurs se sont tournés vers le Summit Oak Ridge Leadership Computing Facility, le deuxième plus grand centre de calcul intensif au monde. « Grâce à cette ressource, nous avons pu appliquer AF2Complex sur environ 7 000 paires de protéines de la bactérie E. coli« , a partagé Gao.
Dans ce test, le nouveau modèle de l’équipe a non seulement identifié de nombreuses paires de protéines connues pour former des complexes, mais il a également été en mesure de fournir des informations sur les interactions « suspectées mais jamais observées expérimentalement », a déclaré Gao.
L’approfondissement de ces interactions a révélé un mécanisme moléculaire potentiel pour les complexes protéiques particulièrement importants pour le transport de l’énergie. Ces complexes protéiques sont connus pour transporter des hèmes, des métabolites essentiels donnant au sang une couleur rouge foncé.
À l’aide des modèles structurels prédits d’AF2Complex, Jerry M. Parks, chercheur principal en recherche et développement au laboratoire national d’Oak Ridge et collaborateur à l’étude, a pu placer des hèmes sur leurs sites de réaction suspectés au sein de la structure. « Ces modèles informatiques fournissent désormais des informations sur les mécanismes moléculaires du fonctionnement de ce système biomoléculaire », a déclaré Gao.
« L’apprentissage en profondeur change la façon dont on étudie un système biologique », a ajouté Skolnick. « Nous envisageons que des méthodes comme AF2Complex deviendront des outils puissants pour tout biologiste qui souhaite comprendre les mécanismes moléculaires d’un biosystème impliquant des interactions protéiques. »