RhoFold+ constitue une avancée majeure dans la prédiction de la structure 3D de l'ARN, en combinant vitesse et précision pour lutter contre la rareté des données et ouvrir de nouvelles possibilités dans le développement de médicaments et la biologie synthétique.
Étude : Prédiction précise de la structure 3D de l’ARN à l’aide d’une approche d’apprentissage profond basée sur un modèle de langage. Crédit d'image : Christoph Burgstedt/Shutterstock
Dans une étude récente publiée dans la revue Méthodes naturellesun groupe de chercheurs a développé une nouvelle méthode appelée Prédiction de pliage d'ordre élevé Plus (RhoFold+) de l'acide ribonucléique (ARN). Cette méthode basée sur l’apprentissage profond utilise un modèle de langage ARN pour prédire avec précision les structures 3D de l’ARN. Cette méthode répond aux défis liés à la flexibilité structurelle intrinsèque de l’ARN et à la rareté des données déterminées expérimentalement.
Sommaire
Arrière-plan
Les molécules d'ARN jouent un rôle central en biologie moléculaire, influençant la régulation des gènes et servant de cibles prometteuses pour le développement de médicaments et la biologie synthétique. Malgré l'importance de la structure de l'ARN dans la compréhension du fonctionnement, la majorité des molécules d'ARN restent structurellement non caractérisées, avec moins de 1 % des structures uniquement d'ARN disponibles dans la banque de données sur les protéines (PDB) en décembre 2023. Techniques expérimentales comme la cristallographie aux rayons X , la résonance magnétique nucléaire (RMN) et la microscopie électronique cryogénique (cryo-EM) sont limitées par des exigences spécialisées, tandis que les méthodes informatiques, notamment basées sur des modèles et de novo approches, font face à des défis tels que la rareté des données et l’intensité des calculs. Le développement de RhoFold+ représente une étape cruciale pour relever ces défis et parvenir à un équilibre entre vitesse, précision et accessibilité dans la prédiction de la structure de l’ARN.
À propos de l'étude
La plateforme RhoFold+ intègre des méthodologies avancées pour la prédiction de la structure 3D de l'ARN, combinant des approches basées sur l'alignement de séquences multiples (MSA) et l'apprentissage profond pour améliorer la précision et l'efficacité. Les MSA, générés à l’aide des outils MSA infernal et récursif (rMSA), capturent les structures secondaires conservées à partir de bases de données telles que la base de données des familles d’ARN (Rfam) et la base de données centrale d’ARN (RNAcentral). Pour gérer les contraintes de mémoire, 256 MSA ont été sélectionnés, soit de manière aléatoire, soit via un clustering, et utilisés comme entrée pour des prédictions standard ou des modèles optimisés à haute confiance appelés RhoFold+ (TopK).
Au cœur de RhoFold+ se trouve le modèle de fondation ARN (RNA-FM), construit sur une architecture de transformateur inspirée des représentations d'encodeurs bidirectionnels des transformateurs (BERT). Pré-entraîné sur environ 23,7 millions de séquences d'ARN (nc) non codantes de RNAcentral, RNA-FM a efficacement capturé les dépendances de séquence grâce à la prédiction de jetons masqués. Un ensemble de données d'auto-distillation, combinant des annotations expérimentales avec des étiquettes pseudo-structurelles, a encore amélioré la précision du modèle. Le post-traitement avec des outils tels que la construction de modèles assistés avec raffinement énergétique (AMBER) a résolu les inexactitudes structurelles, garantissant ainsi des prédictions biologiquement valides.
Le module de structure de RhoFold+ utilise la modélisation géométrique et le recyclage itératif pour prédire les coordonnées 3D tout en appliquant des contraintes biologiques. L'utilisation de fonctions de perte à plusieurs niveaux permet d'optimiser les prédictions structurelles sur plusieurs dimensions, affinant ainsi davantage la précision. L'analyse comparative avec des méthodes telles que DeepFoldRNA et AlphaFold3 sur les cibles d'évaluation critique de la prédiction de structure (CASP15) a démontré les performances supérieures et les prédictions rapides de RhoFold+, en exploitant uniquement l'entrée de séquence d'ARN et en obtenant des résultats précis sur diverses structures d'ARN.
Résultats de l'étude
Le développement de RhoFold+ représente une avancée significative dans la prédiction de la structure 3D de l’ARN en abordant les limites des ensembles de données et des approches informatiques existantes. Un ensemble de données organisé de séquences d'ARN à chaîne unique a été préparé à l'aide de structures d'ARN représentatives de la PDB, regroupées à une similarité de séquence de 80 %. Ce processus a abouti à 782 groupes de séquences uniques provenant de 5 583 chaînes d’ARN, qui ont été traitées via RhoFold+. Le modèle de langage ARN-FM a été utilisé pour extraire les incorporations évolutives et structurelles, tandis que les MSA générés à partir de vastes bases de données de séquences ont été incorporés dans Rhoformer pour un raffinement itératif. Des contraintes structurelles clés, notamment la structure secondaire et l'appariement de bases, ont assuré la génération de modèles biologiquement précis.
RhoFold+ a fait l'objet d'une analyse comparative rigoureuse par rapport à des méthodes établies sur des défis communautaires tels que RNA-Puzzles et CASP15. Dans RNA-Puzzles, RhoFold+ a surpassé toutes les autres approches sur la plupart des cibles, atteignant un écart quadratique moyen (rmsd) moyen de 4,02 Å, une amélioration substantielle par rapport à la deuxième meilleure méthode. Les scores du Template Modeling (TM) ont également démontré un alignement structurel global supérieur, confirmant l'exactitude du modèle. Notamment, RhoFold+ a toujours bien fonctionné, même lorsqu'il a été testé sur des ensembles de données avec une séquence et un chevauchement structurel minimes avec les données d'entraînement, soulignant sa robustesse et ses capacités de généralisation. Les comparaisons avec les meilleurs modèles uniques ont en outre validé la capacité de RhoFold+ à produire des prédictions dépassant celles dérivées des modèles de formation les plus structurellement similaires.
Sur les cibles d'ARN naturel CASP15, RhoFold+ a surpassé les autres méthodes de pointe, y compris les approches pilotées par des experts, réalisant des améliorations notables en matière de précision. Ses prédictions présentaient systématiquement des valeurs rmsd inférieures et des scores Z plus élevés pour les mesures d'alignement structurel telles que le score TM et le score total du test de distance global (GDT-TS). Même dans des scénarios difficiles, tels que la prévision d'interactions secondaires et tertiaires complexes, RhoFold+ a démontré de solides performances.
Une évaluation complète de toutes les structures d’ARN déterminées expérimentalement a montré que RhoFold+ a démontré des performances de validation croisée élevées. Il a maintenu une précision constante dans différentes divisions de données et s’est généralisé aux structures d’ARN invisibles, y compris les nouvelles entrées PDB. Cependant, des défis subsistent dans la prédiction des jonctions et des pseudo-nœuds d’ARN, qui présentent une flexibilité conformationnelle significative.
RhoFold+ étend son utilité au-delà de la prédiction de structure 3D en prédisant avec précision les structures secondaires de l'ARN et les angles interhélicaux (IHA). Cette fonctionnalité étendue met en valeur ses applications potentielles dans l’ingénierie de l’ARN et les études fonctionnelles, comme en biologie synthétique.
Conclusions
Pour résumer, RhoFold+ intègre un modèle de langage ARN pré-entraîné sur environ 23,7 millions de séquences d'ARN et intègre des stratégies pour augmenter les données d'entraînement limitées. RhoFold+ surpasse les autres méthodes de prédiction de la structure de l'ARN, atteignant une valeur efficace inférieure à 4 Å sur les cibles d'ARN CASP15 et les RNA-Puzzles. C’est rapide, efficace et ne nécessite pas de connaissances spécialisées. De plus, le modèle excelle dans la gestion de divers types et familles d’ARN, validant ainsi son potentiel d’application à grande échelle.
Le modèle se généralise bien à travers différents ensembles de formation et prédit avec précision les structures d’ARN invisibles dans les validations inter-familles et inter-types. Bien que des défis subsistent dans la prédiction des structures d’ARN grandes et complexes, RhoFold+ représente une étape transformatrice dans la prédiction de la structure 3D de l’ARN, comblant le fossé entre précision, vitesse et accessibilité.