Dans la recherche de nouveaux traitements contre le cancer et les maladies infectieuses, les peptides lasso s’avèrent être un piège. Leurs structures en forme de nœuds confèrent à ces molécules une grande stabilité et diverses activités biologiques, ce qui en fait une voie prometteuse pour de nouvelles thérapies. Pour mieux libérer leur potentiel clinique, une équipe de l’Institut Carl R. Woese de biologie génomique a développé LassoESM, un nouveau grand modèle de langage permettant de prédire les propriétés des peptides du lasso.
L'étude collaborative a été récemment publiée dans Communications naturelles.
Les peptides lasso sont des produits naturels fabriqués par des bactéries. Pour produire ces peptides, les bactéries utilisent des ribosomes pour construire des chaînes d’acides aminés qui sont ensuite repliées par des enzymes biosynthétiques pour former une structure unique en forme de nœud coulant. Grâce à ce processus, des milliers de peptides lasso différents sont générés, dont beaucoup ont démontré des propriétés antibactériennes, antivirales et anticancéreuses.
« Il existe des opportunités frappantes d'utiliser les peptides lasso dans la découverte de médicaments, du ciblage des récepteurs au développement de thérapies orales stables », a déclaré Doug Mitchell, directeur de l'Institut Vanderbilt de biologie chimique et co-responsable de l'étude. « En construisant un modèle de langage dédié à ces molécules, nous avons créé un outil qui nous aide à débloquer ces possibilités beaucoup plus efficacement. »
Les modèles d’apprentissage automatique sont devenus des outils essentiels pour les chercheurs, notamment pour reconnaître des modèles dans de grands ensembles de données. Cela permet aux scientifiques de trouver de nouvelles connexions, tout en économisant des mois de temps et d’efforts. La prédiction des protéines bénéficie particulièrement de cette technologie, car elle permet de découvrir de nouvelles informations sur les interactions complexes entre protéines et d’accélérer la découverte de nouveaux traitements. Mais les plates-formes d’IA couramment utilisées pour la prédiction des protéines, telles qu’AlphaFold, ne sont pas à la hauteur lorsqu’elles sont chargées de peptides lasso.
« En raison de la structure unique du peptide lasso, aucun des programmes d'IA actuels ne fonctionne réellement en termes de prédiction de structure », a déclaré Diwakar Shukla (BSD/CAMBERS/MMG), co-responsable du projet, professeur de génie chimique et biomoléculaire et professeur James W. Westwater à l'Université de l'Illinois à Urbana-Champaign.
Semblables aux grands modèles de langage qui alimentent les chatbots IA, les modèles de langage protéique sont formés pour apprendre et appliquer le langage des protéines : leurs séquences d’acides aminés, leurs structures tridimensionnelles et leurs interactions avec les environnements environnants. Mais sans données d’entraînement spécifiques aux peptides lasso, ces algorithmes manquent de spécificité pour ces molécules.
« La prévision des propriétés du peptide lasso a été difficile en raison de la rareté des données expérimentalement marquées et de la complexité des interactions enzyme-peptide substrat », a déclaré Xuenan Mi, qui a récemment obtenu son doctorat dans le groupe de recherche de Shukla. « Nous avons développé LassoESM, un modèle de langage protéique adapté aux peptides lasso, pour capturer les caractéristiques spécifiques aux peptides qui sont souvent manquées par les modèles de langage protéique génériques. »
Le groupe de Mitchell a d'abord utilisé des méthodes bioinformatiques pour trouver des milliers de séquences peptidiques de lasso produites par différents micro-organismes. Pour améliorer la qualité des données, l’équipe a également validé manuellement toutes les nouvelles séquences peptidiques du lasso découvertes.
« Ensuite, nous avons appris le langage de ces peptides lasso en utilisant la modélisation du langage masqué, où vous cachez une partie du peptide, puis essayez de prédire l'autre moitié », a déclaré Shukla. « Une fois que vous avez appris le langage de la formation de la structure du lasso dans la nature, vous pouvez alors former des modèles de prédiction de propriétés efficaces basés sur ces paramètres de modèle de langage. »
En combinant les connaissances du groupe Shukla en matière d'apprentissage automatique avec les données expérimentales collectées par le groupe de Mitchell, l'équipe a appliqué LassoESM à de nombreuses tâches de prédiction utiles. L’un des domaines d’intérêt est l’identification de paires compatibles de peptides lasso et de lasso cyclase afin d’élargir le potentiel clinique de ces molécules. Les lasso cyclases sont les enzymes responsables de l’étape de formation des nœuds de la biosynthèse des peptides lasso. Tout comme différentes serrures nécessitent des clés uniques, différents peptides nécessitent des lasso cyclases spécifiques pour nouer le nœud caractéristique.
« Nous avons construit des modèles pour prédire quelle lasso cyclase pourrait réellement former un peptide lasso en utilisant uniquement la séquence d'acides aminés dans un peptide. Si nous pouvons comprendre la portée du substrat ou si nous pouvons concevoir des lasso cyclases, alors nous pouvons potentiellement transformer n'importe quel peptide en lasso », a déclaré Shukla. Sans LassoESM, ces interactions enzyme-substrat sont difficiles à prédire, soulignant l'utilité de cette méthode. outil d'intelligence artificielle.
Mi a déclaré : « Nous avons démontré que LassoESM permet de prédire avec précision diverses propriétés des peptides lasso, même avec des données de formation limitées. Ce travail fournit un outil puissant basé sur l'IA pour accélérer la conception rationnelle de peptides lasso fonctionnels pour des applications biomédicales et industrielles.
À l’avenir, l’équipe vise également à élargir son modèle pour s’adapter à de nouvelles capacités de prédiction, telles que la création de modèles de langage sur mesure pour d’autres produits naturels peptidiques et l’ingénierie de peptides lasso pour cibler des protéines spécifiques.
« Grâce à l'accès à de puissantes ressources informatiques sur notre campus et aux opportunités de collaboration interdisciplinaire fournies par le thème MMG de l'Institut Carl R. Woese de biologie génomique », a déclaré Shukla. « Je suis reconnaissant à Xuenan Mi et Susanna Barrett d'avoir dirigé les aspects informatiques et expérimentaux de cette étude, ainsi qu'au professeur Douglas Mitchell d'avoir fourni un soutien expérimental et des conseils au cours de cette enquête. »

























