En exploitant une IA avancée, MéthylGPT décode la méthylation de l’ADN avec une précision sans précédent, ouvrant ainsi de nouvelles voies pour la prédiction de l’âge, le diagnostic des maladies et les interventions de santé personnalisées.
Étude : MéthylGPT : un modèle de base pour le méthylome de l'ADN. Crédit d’image : Shutterstock IA
*Avis important : bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.
Dans une étude récente publiée sur le bioRxiv serveur de préimpression*, les chercheurs ont développé un modèle de base basé sur un transformateur, MéthylGPT, pour le méthylome de l'ADN.
La méthylation de l'ADN est un type de modification épigénétique qui régule l'expression des gènes via des protéines de liaison au méthyle et des modifications de l'accessibilité de la chromatine. Il aide également à maintenir la stabilité génomique grâce à la répression des éléments transposables. La méthylation de l'ADN présente les caractéristiques d'un biomarqueur idéal, et des études ont révélé des signatures de méthylation distinctes dans tous les états pathologiques, permettant ainsi des diagnostics moléculaires.
Néanmoins, plusieurs défis analytiques entravent la mise en œuvre de diagnostics basés sur la méthylation de l’ADN. Les approches actuelles reposent sur des modèles statistiques et linéaires simples, qui sont limités dans la capture de données complexes et non linéaires. Ils ne tiennent pas non plus compte des effets spécifiques au contexte, tels que les interactions d’ordre supérieur et les réseaux de régulation. Par conséquent, un cadre analytique unifié capable de modéliser des modèles complexes et non linéaires dans divers types de tissus et de cellules est nécessaire de toute urgence.
Les progrès récents dans les modèles de fondation et les architectures de transformateurs ont révolutionné les analyses de séquences biologiques complexes. Des modèles de base ont également été introduits pour diverses couches omiques, telles que AlphaFold3 et ESM-3 pour la protéomique et Evo et Enformer pour la génomique. Les réalisations des modèles fondamentaux suggèrent que les analyses de méthylation de l’ADN pourraient être transformées avec une approche similaire.
L'étude et les résultats
Dans la présente étude, les chercheurs ont développé MéthylGPT, un modèle de base basé sur un transformateur pour le méthylome de l'ADN. Premièrement, ils ont acquis des données sur 226 555 profils de méthylation de l’ADN humain couvrant plusieurs types de tissus à partir du centre de données EWAS et de Clockbase. Après la déduplication et le contrôle qualité, 154 063 échantillons ont été conservés pour le pré-entraînement. Le modèle s'est concentré sur 49 156 sites CpG, qui ont été sélectionnés sur la base de leurs associations connues avec divers traits, car cela maximiserait leur pertinence biologique.
Le modèle a été pré-entraîné à l'aide de deux fonctions de perte complémentaires : la perte de modélisation du langage masqué (MLM) et la perte de reconstruction de profil, lui permettant de prédire avec précision la méthylation sur les sites CpG masqués. Le modèle a atteint une erreur quadratique moyenne (MSE) de 0,014 et une corrélation de Pearson de 0,929 entre les niveaux de méthylation prévus et réels, ce qui indique une précision prédictive élevée. Les chercheurs ont également évalué si le modèle pouvait capturer les caractéristiques biologiquement pertinentes de la méthylation de l’ADN. À ce titre, ils ont analysé les représentations apprises des sites CpG dans l’espace d’intégration.
Ils ont constaté que les sites CpG se regroupaient en fonction de leurs contextes génomiques, ce qui suggère que le modèle avait appris les caractéristiques régulatrices du méthylome. De plus, il y avait une séparation nette entre les autosomes et les chromosomes sexuels, indiquant que MéthylGPT capturait également des caractéristiques chromosomiques d'ordre supérieur. Ensuite, l’équipe a analysé les espaces d’intégration sans tir. Cela a montré une organisation biologique claire, regroupée par sexe, type de tissu et contexte génomique.
Les principaux types de tissus formaient des groupes bien définis, ce qui indique que le modèle a appris des schémas de méthylation spécifiques aux tissus sans supervision explicite. Notamment, MéthylGPT a également évité les effets de lots, qui confondent souvent les résultats dans des ensembles de données complexes. En outre, les échantillons de femmes et d’hommes ont démontré une séparation constante, reflétant les différences spécifiques au sexe. Ensuite, les chercheurs ont évalué la capacité du MéthylGPT à prédire l’âge chronologique à partir des modèles de méthylation. À cette fin, ils ont utilisé un ensemble de données de plus de 11 400 échantillons provenant de divers types de tissus.
Un réglage fin de la prédiction de l’âge a conduit à un regroupement robuste en fonction de l’âge. Notamment, l’organisation intrinsèque liée à l’âge était évidente avant même le réglage fin. De plus, MéthylGPT a surpassé les méthodes existantes de prédiction de l'âge (par exemple, l'horloge de Horvath et ElasticNet), atteignant ainsi une précision supérieure. Son erreur absolue médiane pour la prédiction de l’âge était de 4,45 ans, démontrant ainsi sa robustesse. MéthylGPT était également remarquablement résistant aux données manquantes. Il a affiché des performances stables avec jusqu'à 70 % de données manquantes, surpassant les approches perceptron multicouche et ElasticNet.
L'analyse des profils de méthylation lors de la reprogrammation de cellules souches pluripotentes induites (iPSC) a montré une trajectoire de rajeunissement claire ; les échantillons sont progressivement passés à un état de méthylation plus jeune au cours de la reprogrammation. Le modèle a également pu identifier le moment de la reprogrammation (jour 20) où les cellules ont commencé à montrer des signes clairs d’inversion de l’âge épigénétique. Enfin, la capacité du modèle à prédire le risque de maladie a été évaluée. Le modèle pré-entraîné a été affiné pour prédire le risque de 60 maladies et la mortalité. Le modèle a atteint une aire sous la courbe de 0,74 et 0,72 respectivement sur les ensembles de validation et de test.
De plus, ils ont utilisé ce cadre de prévision du risque de maladie pour évaluer l’impact de huit interventions sur l’incidence prévue de la maladie. Les interventions comprenaient, entre autres, le sevrage tabagique, l'entraînement de haute intensité et le régime méditerranéen, chacun d'entre eux ayant montré différents degrés d'efficacité selon les catégories de maladies. Cela a montré des effets distincts spécifiques à l'intervention dans toutes les catégories de maladies, soulignant le potentiel du MéthylGPT pour prédire les résultats spécifiques à l'intervention et optimiser les stratégies d'intervention sur mesure.
Conclusions
Les résultats illustrent que les architectures de transformateurs pourraient modéliser efficacement les modèles de méthylation de l’ADN tout en préservant la pertinence biologique. L'organisation des sites CpG basée sur les caractéristiques réglementaires et le contexte génomique suggère que le modèle a capturé les aspects fondamentaux sans supervision explicite. Le méthylGPT a également démontré des performances supérieures en matière de prédiction de l’âge dans différents tissus. De plus, ses performances robustes dans le traitement des données manquantes (≤ 70 %) soulignent son utilité potentielle dans les applications cliniques et de recherche.
Grands modèles de langage de vie : des modèles de base pour la longévité et le vieillissement !
Notre laboratoire a récemment été impliqué dans deux modèles révolutionnaires de fondation de la méthylation de l’ADN : CpGPT et MéthylGPT ! Ces modèles du « Grand Langage de la Vie » (@EricTopol) marquent une nouvelle ère dans le vieillissement…
-Bo Wang (@BoWang87) 10 novembre 2024
*Avis important : bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.