Ma Clinique
  • À la une
  • Actualités
    • Médecines douces
    • Enfants
    • Chirurgie esthétique
  • Chirurgiens esthétiquesNew
  • Contactez-nous
Pas de résultat
View All Result
Ma Clinique : L'information médicale par des professionnels de la santé
Pas de résultat
View All Result

Accueil » Actualités médicales » Prédicteur d’effet de variante non supervisé à l’échelle du génome basé sur le pré-entraînement de modèles de langage ADN

Prédicteur d’effet de variante non supervisé à l’échelle du génome basé sur le pré-entraînement de modèles de langage ADN

par Ma Clinique
31 octobre 2023
dans Actualités médicales
Temps de lecture : 4 min
Study: DNA language models are powerful predictors of genome-wide variant effects. Image Credit: angellodeco/Shutterstock.com

Dans une étude récente publiée dans PNAS, les chercheurs ont présenté le réseau génomique pré-entraîné (GPN), un modèle multi-espèces développé pour apprendre les effets des variantes à l’échelle du génome par un préentraînement auto-supervisé sur les séquences d’acide désoxyribonucléique (ADN) génomique.

Étude: Les modèles de langage ADN sont de puissants prédicteurs des effets des variantes à l’échelle du génome. Crédit d’image : angellodeco/Shutterstock.com

Sommaire

  • Arrière-plan
  • À propos de l’étude
  • Résultats
  • Conclusion

Arrière-plan

Les variations génétiques du génome contribuent à des maladies complexes et à des caractéristiques agricoles, mais leur compréhension reste un défi. Bien que les études d’association pangénomiques (GWAS) fournissent des informations biologiques, l’identification des variations causales reste difficile.

La validation des expériences prend du temps et est coûteuse, ce qui souligne la nécessité d’approches informatiques précises et évolutives pour anticiper l’impact des variations génétiques sur l’ensemble du génome.

Le pré-entraînement de type non supervisé utilisant de grandes bases de données de séquences protéiques s’est montré efficace pour extraire des informations complexes sur les protéines et apprendre les effets de variation dans les zones de codage.

À propos de l’étude

Dans la présente étude, les chercheurs ont proposé une stratégie de prédiction de l’impact des variantes à l’échelle du génome, basée sur des modèles de langage d’ADN non supervisés, qui a permis d’obtenir des performances de pointe chez Arabidopsis thaliana, un organisme modèle pour la biologie végétale et une source d’informations sur les troubles humains.

Pour pré-entraîner le modèle de langage basé sur un réseau neuronal convolutif, les chercheurs ont utilisé des génomes non alignés de Arabidopsis thaliana et sept liés Brassicales espèces, en utilisant le catalogue AraGWAS pour référence. L’approche a été utilisée pour anticiper les nucléotides masqués en fonction de leur contexte génétique.

Les scientifiques ont fait la moyenne des incorporations contextuelles (512 dimensions) de nucléotides du GPN sur 100 fenêtres de paires de bases (pb) du génome de référence. Ils les ont affichés à l’aide de l’approximation et de la projection uniformes du collecteur (UMAP) pour mesurer dans quelle mesure le modèle comprenait l’organisation génomique.

Un classificateur de régression logistique a été construit en utilisant les intégrations moyennes comme caractéristiques pour mesurer la capacité du GPN à discriminer les régions génomiques. Compte tenu du contexte, chaque lieu génomique a été masqué individuellement, tout comme la distribution des résultats du modèle sur les nucléotides.

Des logos de séquence ont été produits et peuvent être consultés dans le navigateur génomique de l’Université de Californie à Santa Cruz (UCSC) afin de faciliter l’utilisation de ces distributions prévues.

Les scores GPN ont été calculés pour la mutagenèse in silico des SNP sur une zone de 1,0 Mo, et les résultats ont été moyennés pour tous les types de variantes. Par la suite, les chercheurs ont examiné plus de 10 millions de polymorphismes mononucléotidiques (SNP) provenant d’adhésions naturelles au projet 1001 Genomes pour estimer la capacité du GPN à prédire l’impact fonctionnel des variantes génétiques dans A. thaliana.

Des codes ont été fournis pour entraîner le modèle GPN pour chaque espèce donnée, sur la base uniquement de sa séquence d’acide désoxyribonucléique, permettant une estimation non supervisée des effets de variation sur l’ensemble du génome. Les chercheurs ont analysé l’enrichissement de variantes génétiques rares et communes dans la queue des distributions de scores au niveau du génome pour évaluer les capacités de recherche de variations fonctionnelles potentielles.

Résultats

Le modèle GPN, qui a été formé sans supervision, a efficacement appris la structure des gènes et les modèles d’ADN dans Arabidopsis thalianaun organisme modèle de biologie végétale étroitement lié à plusieurs espèces pertinentes sur le plan agricole qui pourrait être utilisé pour mieux comprendre les troubles humains.

L’approche a surpassé les méthodes de conservation établies telles que phastCons et phyloP, basées sur 18 méthodes connexes. Brassicales espèces alignées par séquençage du génome entier (WGS). La représentation interne des séquences d’ADN utilisée par GPN pourrait discriminer des zones génomiques telles que les régions non traduites (UTR), les introns et les séquences codantes, et sa confiance pourrait aider à découvrir une grammaire régulatrice, comme des motifs qui lient des facteurs de transcription.

GPN avait la meilleure précision sur les séquences codantes (CDS, 96 %) et la plus faible précision sur l’acide ribonucléique non codant (ARNnc, 51 %), la classe la moins courante. Le modèle pourrait identifier les régions génomiques intergéniques, introns, CDS, UTR et ncRNA.

La confiance de prédiction du modèle était associée à la fonctionnalité attendue des sites, et les motifs des codons de départ et d’arrêt étaient généralement prédits avec précision.

En utilisant le rapport de log-vraisemblance entre les allèles alternatifs et de référence, GPN pourrait déterminer un score de pathogénicité ou de fonctionnalité pour chaque SNP du génome. La classification des types de variantes basée sur le percentile le plus bas des scores GPN était généralement conforme aux idées précédemment acceptées sur le caractère délétère.

Huit pour cent et neuf pour cent des variations répétées ont été classées avant le premier décile des variantes faux-sens dans les modèles avec une sous-pondération de 0,0 et 0,1, respectivement. Les SNP fonctionnels putatifs, définis comme les 0,1 % les plus bas des scores GPN, sont enrichis en variations rares 5,5 fois.

Le GPN a l’avantage d’attribuer des scores significativement différents aux variantes génétiques en fort déséquilibre de liaison (LD) les unes avec les autres au cas où leurs contextes environnants différaient.

La technique GPN-LD a efficacement séparé les résultats de l’étude d’association à l’échelle du génome des non-résultats, les polymorphismes mononucléotidiques présentant le pour cent le plus faible des scores de déséquilibre de liaison GPN étant 10 fois plus enrichis dans les résultats GWAS que ceux ayant les 99,0 les plus élevés. % des valeurs de déséquilibre de liaison GPN.

Étonnamment, le modèle entraîné avec des poids intermédiaires lors des répétitions a obtenu les meilleurs résultats. Lors de l’évaluation de l’ensemble des variantes, y compris les endroits qui ne correspondent pas aux autres Brassicalesla technique GPN-LD a produit des valeurs de rapport de cotes significativement plus élevées.

Conclusion

Sur la base des résultats de l’étude, la technique de prédiction des variantes à l’échelle du génome (GPN) prédit de manière fiable les effets des variantes à l’échelle du génome en se basant uniquement sur la séquence génomique. Il s’applique à toutes les espèces et peut être utilisé pour affiner la cartographie fine du GWAS et les scores de risque polygénique.

Étant donné que GPN est formé sur des séquences d’ADN, il peut être utilisé pour des espèces non modèles peu étudiées et dépourvues de données génomiques fonctionnelles complètes. Le modèle apprend des distributions conjointes de nucléotides dans des contextes similaires dans le génome plutôt que des alignements du génome entier, ce qui pourrait entraîner une moins bonne qualité de non-codage.

Les prédictions GPN concernant les jonctions d’épissage pourraient aider à identifier les sites de liaison du facteur d’épissage. De futures études pourraient évaluer l’impact de la réduction des répétitions en fonction de la famille ou de l’âge.

Précédent

L’inscription commence le 1er novembre pour la plupart des régimes d’assurance Obamacare

Suivant

De simples substitutions alimentaires peuvent réduire l’empreinte carbone des États-Unis de plus de 35 %

Ma Clinique

Ma Clinique

L'équipe Ma Clinique : professionnels de la santé et spécialistes en médecine générale. Notre objectif est de vous fournir les informations dont vous avez besoin pour prendre des décisions éclairées sur vos soins de santé.

Articles populaires

Top 10 des références de matériel dentaire

Top 10 des références de matériel dentaire

13 mai 2026
Sortie d'hospitalisation en 2026 : la maison de convalescence est-elle devenue l'étape obligatoire pour une guérison complète ?

Sortie d’hospitalisation en 2026 : la maison de convalescence est-elle devenue l’étape obligatoire pour une guérison complète ?

8 mai 2026
Comment préparer sa première injection de toxine botulique ?

Comment préparer sa première injection de toxine botulique ?

1 mai 2026
Comment l’augmentation mammaire peut-elle améliorer votre bien-être ?

Comment l’augmentation mammaire peut-elle améliorer votre bien-être ?

10 avril 2026
Peau atopique : les critères essentiels pour choisir une crème vraiment adaptée (et éviter les erreurs fréquentes)

Peau atopique : les critères essentiels pour choisir une crème vraiment adaptée (et éviter les erreurs fréquentes)

10 avril 2026

Articles recommandés

Covid-19 : pourquoi le gouvernement ne veut pas de nouvelles mesures ?

Covid-19 : pourquoi le gouvernement ne veut pas de nouvelles mesures ?

7 juillet 2022

Tout savoir sur les probiotiques et prebiotiques

23 septembre 2022
Gingivite : les bons réflexes à adopter en cas de douleur

Gingivite : les bons réflexes à adopter en cas de douleur

30 mai 2022
Quelles sont les causes et les risques de l’hypotension ?

Quelles sont les causes et les risques de l’hypotension ?

19 avril 2023
Quelles sont les raisons pour lesquelles les patients effectuent une chirurgie oculaire Lasik ?

Quelles sont les raisons pour lesquelles les patients effectuent une chirurgie oculaire Lasik ?

23 septembre 2022
Les associations en cas de chirurgie esthétique ratée

Les associations en cas de chirurgie esthétique ratée

29 août 2019
Senior : voici les points à identifier pour une mutuelle de qualité

Senior : voici les points à identifier pour une mutuelle de qualité

6 décembre 2022
Quelle formation en gestion du stress en milieu hospitalier ?

Quelle formation en gestion du stress en milieu hospitalier ?

25 avril 2023
Soulager une sciatique : les remèdes de grand-mère

Soulager une sciatique : les remèdes de grand-mère

9 août 2023

Nos peurs et nos croyances sur la maladie et la santé nous influencent

3 avril 2021
5 points à connaître pour avoir de belles dents

5 points à connaître pour avoir de belles dents

11 août 2022
Tout ce qu’il faut savoir sur le crédit santé

Tout ce qu’il faut savoir sur le crédit santé

20 novembre 2022

Qui sommes-nous ?

Ma Clinique

Ma Clinique : L'information médicale par des professionnels de la santé.

Ma Clinique est géré par des professionnels de la santé qui ont à cœur de fournir des informations médicales précises et actualisées. Nous sommes une équipe de médecins et d'autres professionnels de la santé, et avons des années d'expérience dans le domaine de la médecine.

Nous trouver

Ma Clinique
11 rue Jules Ferry
01500 Ambérieu-en-Bugey
France

[email protected]

  • Mentions légales
  • Contactez-nous

© 2026 Copyright - Ma Clinique - [email protected]

Pas de résultat
View All Result
  • À la une
  • Actualités
    • Médecines douces
    • Enfants
    • Chirurgie esthétique
  • Chirurgiens esthétiques
  • Contactez-nous

© 2026 Copyright - Ma Clinique - [email protected]

Ce site utilise les cookies. En continuant votre navigation sur ce site, vous acceptez l'utilisation des cookies afin d'assurer le bon déroulement de votre visite et de réaliser des statistiques d'audience. Visitez nos mentions légales .