Dans la biologie synthétique et structurelle, les progrès de l'intelligence artificielle ont conduit à une explosion de la conception de nouvelles protéines avec des fonctions spécifiques, des anticorps aux agents de coagulation sanguine, en utilisant des ordinateurs pour prédire avec précision la structure 3D d'une séquence d'acides aminés donnée.
Mais la structure de près de 30% de toutes les protéines exprimées par le génome humain est difficile de prédire même les outils d'IA les plus puissants, y compris l'alphafold lauréat du Nobel. Ne vous installant jamais dans une forme fixe mais se déplaçant constamment, ces protéines dites intrinsèquement désordonnées sont essentielles à d'innombrables fonctions biologiques comme les molécules de réticulation, la détection ou la signalisation, mais leur instabilité inhérente les rend difficiles à concevoir à partir de zéro.
Une équipe de la Harvard John A. Paulson School of Engineering and Applied Sciences (Seas) et de la Northwestern University a démontré une nouvelle méthode d'apprentissage automatique qui peut concevoir des protéines intrinsèquement désordonnées avec des propriétés sur mesure. Le travail ouvre des portes à une nouvelle compréhension de ces biomolécules mystérieuses et de nouvelles perspectives possibles sur les origines et les traitements des maladies.
Le travail est publié dans Nature Computational Science et a été co-dirigé par l'étudiant diplômé de Seas, Ryan Krueger, et l'ancienne collègue de NSF-Simons Quantbio Krishna Shrinivas, maintenant professeur adjoint à Northwestern, en collaboration avec Michael Brenner, professeur de catalyseur de mathématiques appliqués et de physique appliquée à la mer.
Shrinivas a déclaré qu'il s'était intéressé à étudier les protéines intrinsèquement désordonnées parce qu'elles sont hors de portée des méthodes basées sur l'IA actuelles, telles que Alphafold de Google Deepmind, pour prédire et concevoir des protéines avec des conformations distinctes. Pourtant, ces protéines désordonnées sont importantes pour de nombreux aspects fondamentaux de la biologie, et il est connu que les mutations de ces protéines sont liées à des maladies comme le cancer et la neurodégénérescence. Un exemple de protéine désordonnée est l'alpha-synucléine, longuement impliquée dans les maladies de Parkinson et d'autres. Pour concevoir des PDI pour les utilisations synthétiques ou thérapeutiques, Shrinivas a déclaré: « Nous devions soit proposer de meilleurs modèles d'IA, ou, nous devions trouver un moyen de prendre ces modèles de physique où vous obtenez non seulement de bonnes prévisions, mais vous obtenez également la physique gratuitement. »
Algorithmes de différenciation automatique
L'article décrit une méthode de calcul alimentée par des algorithmes qui peuvent effectuer une «différenciation automatique» ou un calcul automatique des dérivés – taux de changement instantanés – afin de sélectionner rationnellement les séquences de protéines avec les comportements ou les propriétés souhaités. La technique est un outil largement utilisé pour l'apprentissage en profondeur et la formation des réseaux de neurones, mais Brenner et son laboratoire ont été parmi les premiers à reconnaître d'autres cas d'utilisation potentiels, tels que l'optimisation des simulations de dynamique moléculaire basée sur la physique.
Avec la différenciation automatique, les chercheurs ont pu former un ordinateur pour reconnaître comment les petits changements dans les séquences de protéines – même les changements d'acides aminés uniques – affectent les propriétés finales souhaitées des protéines. Ils ont comparé leur méthode à un moteur de recherche très puissant pour les séquences d'acides aminés qui correspondent aux critères nécessaires pour remplir une fonction – disons, qui crée des boucles ou des connecteurs, ou peut ressentir différentes choses dans l'environnement.
Nous ne voulions pas avoir à prendre un tas de données et à former un modèle d'apprentissage automatique pour concevoir des protéines. Nous voulions tirer parti des simulations existantes et suffisamment précises pour pouvoir concevoir des protéines au niveau de ces simulations. «
Ryan Krueger, étudiant diplômé, Harvard John A. Paulson School of Engineering and Applied Sciences
La méthode exploite un cadre traditionnel pour la formation de réseaux de neurones appelés optimisation basée sur le gradient pour identifier de nouvelles séquences protéiques avec efficacité et précision. Le résultat est que les protéines conçues par les chercheurs sont «différenciables», c'est-à-dire ce ne sont pas les meilleures devises prédites par l'IA, mais plutôt basées sur des simulations de dynamique moléculaire, en utilisant la physique réelle, qui prennent en compte la façon dont les protéines se comportent, se comportent dynamiquement dans la nature.
La recherche a reçu le soutien fédéral de la National Science Foundation AI Institute of Dynamic Systems, du Bureau de la recherche navale, du Harvard Materials Research Science and Engineering Center et du NSF-Simons Center for Mathematical and Statistical Analysis of Biology at Harvard.


























