Prédicteur d'effet de variante non supervisé à l'échelle du génome basé sur le pré-entraînement de modèles de langage ADN

Dans une étude récente publiée dans PNAS, les chercheurs ont présenté le réseau génomique pré-entraîné (GPN), un modèle multi-espèces développé pour apprendre les effets des variantes à l’échelle du génome par un préentraînement auto-supervisé sur les séquences d’acide désoxyribonucléique (ADN) génomique.

Étude: Les modèles de langage ADN sont de puissants prédicteurs des effets des variantes à l’échelle du génome. Crédit d’image : angellodeco/Shutterstock.com

Sommaire

Arrière-plan

Les variations génétiques du génome contribuent à des maladies complexes et à des caractéristiques agricoles, mais leur compréhension reste un défi. Bien que les études d’association pangénomiques (GWAS) fournissent des informations biologiques, l’identification des variations causales reste difficile.

La validation des expériences prend du temps et est coûteuse, ce qui souligne la nécessité d’approches informatiques précises et évolutives pour anticiper l’impact des variations génétiques sur l’ensemble du génome.

Le pré-entraînement de type non supervisé utilisant de grandes bases de données de séquences protéiques s’est montré efficace pour extraire des informations complexes sur les protéines et apprendre les effets de variation dans les zones de codage.

À propos de l’étude

Dans la présente étude, les chercheurs ont proposé une stratégie de prédiction de l’impact des variantes à l’échelle du génome, basée sur des modèles de langage d’ADN non supervisés, qui a permis d’obtenir des performances de pointe chez Arabidopsis thaliana, un organisme modèle pour la biologie végétale et une source d’informations sur les troubles humains.

Pour pré-entraîner le modèle de langage basé sur un réseau neuronal convolutif, les chercheurs ont utilisé des génomes non alignés de Arabidopsis thaliana et sept liés Brassicales espèces, en utilisant le catalogue AraGWAS pour référence. L’approche a été utilisée pour anticiper les nucléotides masqués en fonction de leur contexte génétique.

Les scientifiques ont fait la moyenne des incorporations contextuelles (512 dimensions) de nucléotides du GPN sur 100 fenêtres de paires de bases (pb) du génome de référence. Ils les ont affichés à l’aide de l’approximation et de la projection uniformes du collecteur (UMAP) pour mesurer dans quelle mesure le modèle comprenait l’organisation génomique.

Un classificateur de régression logistique a été construit en utilisant les intégrations moyennes comme caractéristiques pour mesurer la capacité du GPN à discriminer les régions génomiques. Compte tenu du contexte, chaque lieu génomique a été masqué individuellement, tout comme la distribution des résultats du modèle sur les nucléotides.

Des logos de séquence ont été produits et peuvent être consultés dans le navigateur génomique de l’Université de Californie à Santa Cruz (UCSC) afin de faciliter l’utilisation de ces distributions prévues.

Les scores GPN ont été calculés pour la mutagenèse in silico des SNP sur une zone de 1,0 Mo, et les résultats ont été moyennés pour tous les types de variantes. Par la suite, les chercheurs ont examiné plus de 10 millions de polymorphismes mononucléotidiques (SNP) provenant d’adhésions naturelles au projet 1001 Genomes pour estimer la capacité du GPN à prédire l’impact fonctionnel des variantes génétiques dans A. thaliana.

Des codes ont été fournis pour entraîner le modèle GPN pour chaque espèce donnée, sur la base uniquement de sa séquence d’acide désoxyribonucléique, permettant une estimation non supervisée des effets de variation sur l’ensemble du génome. Les chercheurs ont analysé l’enrichissement de variantes génétiques rares et communes dans la queue des distributions de scores au niveau du génome pour évaluer les capacités de recherche de variations fonctionnelles potentielles.

Résultats

Le modèle GPN, qui a été formé sans supervision, a efficacement appris la structure des gènes et les modèles d’ADN dans Arabidopsis thalianaun organisme modèle de biologie végétale étroitement lié à plusieurs espèces pertinentes sur le plan agricole qui pourrait être utilisé pour mieux comprendre les troubles humains.

L’approche a surpassé les méthodes de conservation établies telles que phastCons et phyloP, basées sur 18 méthodes connexes. Brassicales espèces alignées par séquençage du génome entier (WGS). La représentation interne des séquences d’ADN utilisée par GPN pourrait discriminer des zones génomiques telles que les régions non traduites (UTR), les introns et les séquences codantes, et sa confiance pourrait aider à découvrir une grammaire régulatrice, comme des motifs qui lient des facteurs de transcription.

GPN avait la meilleure précision sur les séquences codantes (CDS, 96 %) et la plus faible précision sur l’acide ribonucléique non codant (ARNnc, 51 %), la classe la moins courante. Le modèle pourrait identifier les régions génomiques intergéniques, introns, CDS, UTR et ncRNA.

La confiance de prédiction du modèle était associée à la fonctionnalité attendue des sites, et les motifs des codons de départ et d’arrêt étaient généralement prédits avec précision.

En utilisant le rapport de log-vraisemblance entre les allèles alternatifs et de référence, GPN pourrait déterminer un score de pathogénicité ou de fonctionnalité pour chaque SNP du génome. La classification des types de variantes basée sur le percentile le plus bas des scores GPN était généralement conforme aux idées précédemment acceptées sur le caractère délétère.

Huit pour cent et neuf pour cent des variations répétées ont été classées avant le premier décile des variantes faux-sens dans les modèles avec une sous-pondération de 0,0 et 0,1, respectivement. Les SNP fonctionnels putatifs, définis comme les 0,1 % les plus bas des scores GPN, sont enrichis en variations rares 5,5 fois.

Le GPN a l’avantage d’attribuer des scores significativement différents aux variantes génétiques en fort déséquilibre de liaison (LD) les unes avec les autres au cas où leurs contextes environnants différaient.

La technique GPN-LD a efficacement séparé les résultats de l’étude d’association à l’échelle du génome des non-résultats, les polymorphismes mononucléotidiques présentant le pour cent le plus faible des scores de déséquilibre de liaison GPN étant 10 fois plus enrichis dans les résultats GWAS que ceux ayant les 99,0 les plus élevés. % des valeurs de déséquilibre de liaison GPN.

Étonnamment, le modèle entraîné avec des poids intermédiaires lors des répétitions a obtenu les meilleurs résultats. Lors de l’évaluation de l’ensemble des variantes, y compris les endroits qui ne correspondent pas aux autres Brassicalesla technique GPN-LD a produit des valeurs de rapport de cotes significativement plus élevées.

Conclusion

Sur la base des résultats de l’étude, la technique de prédiction des variantes à l’échelle du génome (GPN) prédit de manière fiable les effets des variantes à l’échelle du génome en se basant uniquement sur la séquence génomique. Il s’applique à toutes les espèces et peut être utilisé pour affiner la cartographie fine du GWAS et les scores de risque polygénique.

Étant donné que GPN est formé sur des séquences d’ADN, il peut être utilisé pour des espèces non modèles peu étudiées et dépourvues de données génomiques fonctionnelles complètes. Le modèle apprend des distributions conjointes de nucléotides dans des contextes similaires dans le génome plutôt que des alignements du génome entier, ce qui pourrait entraîner une moins bonne qualité de non-codage.

Les prédictions GPN concernant les jonctions d’épissage pourraient aider à identifier les sites de liaison du facteur d’épissage. De futures études pourraient évaluer l’impact de la réduction des répétitions en fonction de la famille ou de l’âge.

Prédicteur d’effet de variante non supervisé à l’échelle du génome basé sur le pré-entraînement de modèles de langage ADN

Arrière-plan

À propos de l’étude

Résultats

Conclusion