Des chercheurs de l’Université de Toronto ont mis au point un système d’intelligence artificielle qui peut créer des protéines introuvables dans la nature en utilisant la diffusion générative, la même technologie derrière les plateformes de création d’images populaires telles que DALL-E et Midjourney.
Le système contribuera à faire progresser le domaine de la biologie générative, qui promet d’accélérer le développement de médicaments en rendant la conception et le test de protéines thérapeutiques entièrement nouvelles plus efficaces et flexibles.
Notre modèle apprend des représentations d’images pour générer des protéines entièrement nouvelles, à un rythme très élevé. Toutes nos protéines semblent être biophysiquement réelles, ce qui signifie qu’elles se replient dans des configurations qui leur permettent d’effectuer des fonctions spécifiques au sein des cellules. »
Philip M. Kim, professeur au Centre Donnelly de recherche cellulaire et biomoléculaire de la faculté de médecine Temerty de l’Université de Toronto
Aujourd’hui, la revue Science computationnelle de la nature ont publié les résultats, les premiers du genre dans une revue à comité de lecture. Le laboratoire de Kim a également publié une pré-impression sur le modèle l’été dernier via le serveur en accès libre bioRxiv, avant deux pré-impressions similaires de décembre dernier, RF Diffusion de l’Université de Washington et Chroma de Generate Biomedicines.
Les protéines sont fabriquées à partir de chaînes d’acides aminés qui se replient en formes tridimensionnelles, qui à leur tour dictent la fonction des protéines. Ces formes ont évolué sur des milliards d’années et sont variées et complexes, mais aussi limitées en nombre. Avec une meilleure compréhension de la façon dont les protéines existantes se replient, les chercheurs ont commencé à concevoir des modèles de repliement non produits dans la nature.
Mais un défi majeur, dit Kim, a été d’imaginer des plis à la fois possibles et fonctionnels. « Il a été très difficile de prédire quels plis seront réels et fonctionneront dans une structure protéique », explique Kim, qui est également professeur aux départements de génétique moléculaire et d’informatique de l’Université de Toronto. « En combinant des représentations basées sur la biophysique de structure des protéines avec des méthodes de diffusion à partir de l’espace de génération d’images, nous pouvons commencer à résoudre ce problème. »
Le nouveau système, que les chercheurs appellent ProteinSGM, s’appuie sur un vaste ensemble de représentations semblables à des images de protéines existantes qui encodent leur structure avec précision. Les chercheurs introduisent ces images dans un modèle de diffusion génératif, qui ajoute progressivement du bruit jusqu’à ce que chaque image devienne tout bruit. Le modèle suit la façon dont les images deviennent plus bruyantes, puis exécute le processus en sens inverse, apprenant à transformer des pixels aléatoires en images claires qui correspondent à des protéines entièrement nouvelles.
Jin Sub (Michael) Lee, doctorant au laboratoire Kim et premier auteur de l’article, explique que l’optimisation de la première étape de ce processus de génération d’images a été l’un des plus grands défis de la création de ProteinSGM. « Une idée clé était la représentation appropriée, semblable à une image, de la structure des protéines, de sorte que le modèle de diffusion puisse apprendre à générer de nouvelles protéines avec précision », explique Lee, qui est originaire de Vancouver mais a fait son diplôme de premier cycle en Corée du Sud et sa maîtrise en Suisse avant choisir l’U de T pour son doctorat.
La validation des protéines produites par ProteinSGM a également été difficile. Le système génère de nombreuses structures, souvent différentes de tout ce que l’on trouve dans la nature. Presque tous semblent réels selon les mesures standard, dit Lee, mais les chercheurs avaient besoin de preuves supplémentaires.
Pour tester leurs nouvelles protéines, Lee et ses collègues se sont d’abord tournés vers OmegaFold, une version améliorée du logiciel AlphaFold 2 de DeepMind. Les deux plates-formes utilisent l’IA pour prédire la structure des protéines sur la base de séquences d’acides aminés.
Avec OmegaFold, l’équipe a confirmé que presque toutes leurs nouvelles séquences se replient dans les structures protéiques souhaitées et également nouvelles. Ils ont ensuite choisi un plus petit nombre à créer physiquement dans des tubes à essai, pour confirmer que les structures étaient des protéines et pas seulement des chaînes parasites de composés chimiques.
« Avec des correspondances dans OmegaFold et des tests expérimentaux en laboratoire, nous pouvions être sûrs qu’il s’agissait de protéines correctement repliées. C’était incroyable de voir la validation de ces replis protéiques entièrement nouveaux qui n’existent nulle part dans la nature », déclare Lee.
Les prochaines étapes basées sur ces travaux comprennent le développement ultérieur de ProteinSGM pour les anticorps et d’autres protéines ayant le potentiel thérapeutique le plus élevé, a déclaré Kim. « Ce sera un domaine très excitant pour la recherche et l’entrepreneuriat », ajoute-t-il.
Lee dit qu’il aimerait voir la biologie générative évoluer vers la conception conjointe de séquences et de structures protéiques, y compris les conformations des chaînes latérales des protéines. La plupart des recherches à ce jour se sont concentrées sur la génération de squelettes, les structures chimiques primaires qui maintiennent les protéines ensemble.
« Les configurations des chaînes latérales déterminent en fin de compte la fonction des protéines, et bien que leur conception signifie une augmentation exponentielle de la complexité, cela peut être possible avec une ingénierie appropriée », déclare Lee. « Nous espérons le savoir. »
Comment l’activité physique et l’alimentation impactent le sommeil des adolescents