En intégrant la séquence d'ADN et le contexte épigénétique, CpGPT établit de nouvelles normes pour prédire les résultats liés au vieillissement, offrant une précision sans précédent dans l'évaluation de la mortalité et du risque de maladie à travers divers ensembles de données.
Étude : CpGPT : un modèle de base pour la méthylation de l'ADN. Crédit d’image : Shutterstock IA
*Avis important : bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.
Dans une récente étude pré-imprimée* publiée sur le bioRxiv serveur, une équipe de chercheurs a présenté le transformateur pré-entraîné cytosine-phosphate-guanine (CpGPT : un modèle de base basé sur un transformateur pour la méthylation de l'acide désoxyribonucléique (ADN)) conçu pour améliorer l'analyse et la prévision dans divers tissus et conditions.
Sommaire
Arrière-plan
Depuis l’avènement de l’architecture des transformateurs, l’intelligence artificielle a rapidement progressé, notamment grâce aux modèles de base et aux grands modèles de langage (LLM) qui utilisent l’auto-attention pour capturer des modèles complexes. Les transformateurs ont eu un impact significatif sur la biologie et la médecine, faisant progresser la transcriptomique unicellulaire et révélant une biologie jusqu'alors inconnue avec des modèles comme le GPT unicellulaire (scGPT) et Geneformer. Malgré les progrès de la recherche sur le vieillissement, de nombreuses horloges du vieillissement épigénétique reposent encore sur des modèles linéaires simples utilisant les données de méthylation de l’ADN CpG, négligeant souvent le contexte de séquence et les interactions complexes. Peu de prédicteurs, comme AltumAge et DeepMAge, utilisent des réseaux neuronaux profonds. Des recherches supplémentaires sont nécessaires pour développer des modèles avancés qui capturent mieux les mécanismes complexes du vieillissement.
À propos de l'étude
Pour développer le modèle CpGPT, les chercheurs ont organisé un ensemble complet de données sur la méthylation de l'ADN nommé « CpGCorpus », regroupant les données de plus de 1 502 études et de plus de 106 000 échantillons humains disponibles dans Gene Expression Omnibus. Cet ensemble de données contenait diverses plates-formes de réseaux de méthylation Illumina et représentait une riche diversité de types de tissus, de stades de développement, d’états pathologiques et de contextes démographiques. Les données brutes ont été traitées à l'aide d'un pipeline d'analyse de méthylation à échantillon unique (SeSAMe), tandis que des matrices de valeurs bêta normalisées ont été utilisées pour les données déjà traitées. Des mesures de contrôle de la qualité et une harmonisation des sondes ont été appliquées pour garantir la cohérence de l'ensemble de données. Les données ont été divisées en ensembles de formation, de validation et de test sans chevauchement d'échantillons ou d'études.
Le modèle CpGPT intégrait des informations de séquence, de position et épigénétiques. Les représentations d'entrée comprenaient des « intégrations des séquences nucléotidiques » obtenues à partir d'un modèle de langage ADN pré-entraîné, des valeurs bêta de méthylation représentant l'état de méthylation de chaque site et un codage de position génomique pour capturer l'emplacement du site CpG dans le génome. Une stratégie de codage à double position a été utilisée, combinant des codages de position absolus et relatifs pour capturer des informations génomiques à plusieurs échelles. Des décodeurs spécialisés ont été conçus pour la prédiction des valeurs bêta, la prédiction des conditions et l'estimation de l'incertitude.
La pré-formation a été réalisée à l'aide d'une approche d'apprentissage multitâche avec des fonctions de perte personnalisées, optimisant la capacité du modèle à reconstruire les données manquantes et à apprendre des représentations d'échantillons significatives. Pour un réglage fin, les sites CpG associés à la mortalité ont été sélectionnés sur la base de coefficients de corrélation intra-classe et de seuils de score z. Le modèle a ensuite été entraîné en utilisant une perte de risque proportionnelle de Cox modifiée. Les performances prédictives de la mortalité et de la morbidité ont été évaluées sur plusieurs cohortes à l'aide de modèles de régression de Cox, d'analyses des caractéristiques de fonctionnement du récepteur et d'analyses de survie, en ajustant l'âge et en employant des méthodes statistiques appropriées.
Résultats de l'étude
Les chercheurs ont développé CpGPT, qui comprend plus de 100 000 échantillons de méthylation de l’ADN humain provenant de plus de 1 500 études couvrant un large éventail de types de tissus, de stades de développement et d’états pathologiques. Les données ont été soigneusement prétraitées et harmonisées pour garantir la cohérence entre les différentes plates-formes de matrices de méthylation Illumina, telles que les matrices HumanMéthylation450 BeadChip (450 000), HumanMéthylation27 BeadChip (27 000), Infinium MéthylationEPIC BeadChip (EPIC), EPIC+ et EPICv2.
CpGPT intègre trois types clés d'informations contextuelles : le contexte de séquence basé sur les nucléotides d'ADN proches de chaque site CpG, le contexte positionnel couvrant les informations locales et globales et l'état épigénétique. Le contexte de séquence est codé à l'aide d'incorporations de séquences nucléotidiques entourant chaque site CpG, dérivées d'un modèle de langage ADN pré-entraîné. Le modèle organise les intégrations de séquences par positions génomiques pour capturer le contexte positionnel, les regroupe par chromosomes et applique un brassage stochastique pour éviter les biais de position. L'état de méthylation de chaque site CpG est transformé en un plongement représentant son statut épigénétique, et ces plongements sont combinés pour former l'entrée du modèle.
L'architecture de base de CpGPT est basée sur le modèle Transformer++, une version améliorée de l'architecture du transformateur avec des modifications pour une stabilité et une précision accrues de la formation. Le modèle est entraîné de manière non supervisée pour prédire les états de méthylation (valeurs bêta) et leurs incertitudes, ce qui lui permet de générer des intégrations significatives au niveau de l'échantillon qui encapsulent des profils de méthylation complets. Le processus de formation utilise plusieurs fonctions de perte pour optimiser divers aspects des performances et est conçu pour gérer efficacement les données manquantes.
Les évaluations utilisant des techniques de réduction de dimensionnalité ont révélé que les intégrations de locus de CpGPT reflètent naturellement les annotations génomiques fonctionnelles, les sites CpG se regroupant en fonction de caractéristiques telles que le statut d'île et les états de chromatine. L'incorporation d'échantillons a capturé efficacement les variations biologiques, en regroupant les échantillons en fonction des types de tissus et des lignées cellulaires. Le modèle a démontré la capacité d'effectuer une cartographie de référence zéro-shot, ce qui lui permet de transférer des étiquettes d'ensembles de données de référence avec des annotations connues vers de nouveaux ensembles de données cibles sans formation supplémentaire.
CpGPT a montré de solides performances en imputant les données de méthylation manquantes, en reconstruisant avec précision les valeurs bêta des sondes manquantes et en améliorant les performances de diverses horloges épigénétiques. Grâce à son mécanisme d'attention, CpGPT pondère dynamiquement les caractéristiques, permettant une interprétation spécifique à un échantillon en attribuant des scores d'importance à chaque site CpG. Cela a mis en évidence des gènes biologiquement pertinents importants pour la régulation épigénétique spécifique aux tissus.
Une fois affiné pour la prévision de la mortalité, CpGPT a montré des performances prédictives sur plusieurs cohortes, stratifiant efficacement les individus en fonction de leur profil de vieillissement biologique. Elle a montré des associations significatives avec les résultats en matière de mortalité et de morbidité, notamment les risques de maladies telles que les maladies neurodégénératives, les problèmes cardiovasculaires et les mesures de la fonction physique.
Conclusions
Pour résumer, CpGPT intègre efficacement le contexte de séquence, les informations de position et l'état épigénétique pour apprendre de riches incorporations au niveau du site CpG et de l'échantillon. Le modèle excelle dans des tâches telles que l'imputation des valeurs de méthylation manquantes, la conversion de matrices, la cartographie de référence zéro et la prévision de l'âge et de la mortalité. En capturant les dépendances complexes entre les sites CpG, CpGPT surmonte les limites des modèles linéaires traditionnels, améliorant ainsi les capacités prédictives des résultats liés au vieillissement et des risques de maladie dans divers ensembles de données.
*Avis important : bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.