De nouvelles méthodes d’analyse et de nouveaux marqueurs sont actuellement identifiés pour prédire les conditions à transmission polygénique. Il s’agit notamment des scores de risque polygénique (PRS), basés sur la présence de polymorphismes mononucléotidiques (SNP) dans plusieurs gènes. Cependant, leur utilité est limitée, car les SRP reposent en grande partie sur des données provenant de populations européennes.
Un nouveau papier dans Génétique naturelle rapporte les résultats obtenus grâce à l’utilisation d’un nouveau calculateur PRS appelé CT-SLEB sur une base de données multinationale GWAS.
Étude: Une nouvelle méthode de prédiction polygénique multi-ascendante améliore les performances dans diverses populations. Crédit d’image : Yurchanka Siarhei/Shutterstock.com
Sommaire
Introduction
Les SNP font référence à différentes variantes génétiques formées par la présence d’une base parmi plusieurs bases possibles à une position donnée au sein d’un nucléotide. Ces mutations génétiques doivent être détectables chez 1 % ou plus de la population pour être considérées comme un SNP.
Des études d’association pangénomiques (GWAS) ont été utilisées pour identifier un grand nombre de SNP liés à des traits et des maladies complexes. PRS utilise des combinaisons de SNP pour fournir un risque prédit d’apparition de caractères complexes et d’états pathologiques.
Les PRS construites sur des associations de traits SNP proviennent en grande partie de cohortes européennes, limitant ainsi leur généralisabilité. Surtout dans les populations africaines, le SRP calculé sur la base de ces études a produit des résultats inexacts.
En conséquence, le PRS n’est pas adapté à une utilisation clinique sans favoriser les populations d’ascendance européenne. Ainsi, l’utilisation de GWAS auprès de plusieurs populations pourrait faciliter le développement de meilleurs scores PRS à partir d’échantillons de formation plus larges.
À cette fin, des études antérieures ont compilé les informations GWAS de la population cible avec des informations provenant de populations européennes plus larges. Cependant, une PRS idéale nécessiterait une taille d’échantillon appropriée et une puissance suffisante, ce qui indiquerait la nécessité de meilleures méthodes, ainsi que de bases de données plus vastes et plus diversifiées.
À propos de l’étude
L’étude actuelle rend compte des performances de CT-SLEB, un outil informatique puissant basé sur les méthodes d’agglutination et de seuillage (CT), de superapprentissage (SL) et de Bayes empirique (EB), par rapport à neuf autres méthodes. Alors que CT sélectionne les SNP à prendre en compte lors du calcul du PRS dans la population cible, EB est une méthode utilisée pour estimer le coefficient SNP. SL utilise un mélange de PRS issus de divers critères de sélection SNP.
CT-SLEB nécessite des statistiques récapitulatives GWAS provenant d’ensembles de données de formation européens et non européens, un ensemble de données de réglage qui produit les meilleurs paramètres pour la population cible et un ensemble de données de validation qui fournit la prédiction finale pour la population cible.
Ces résultats ont été obtenus à l’aide de simulations GWAS sur de grandes populations s’étendant sur cinq ascendances différentes. Il s’agit notamment de 23andMe, Inc., du Global Lipids Genetics Consortium (GLGC), All of Us (AoU) et UK Biobank (UKBB) en EUR), AFR (principalement afro-américain), latino-américain, est-asiatique et sud-asiatique (SAS). ) populations.
Les données GWAS de plus de cinq millions d’individus appartenant à plusieurs groupes ancestraux différents ont été incluses dans l’analyse, dont environ 1,2 million provenaient de pays hors d’Europe. Les données ont été utilisées pour prédire le PRS multi-ascendant à partir d’une combinaison de données sur la population européenne et non européenne, moins abondante.
En plus de fournir des données comparatives sur CT-SLEB et d’autres approches, les scientifiques ont également généré des PRS validés pour 13 caractères complexes à l’aide de cet outil PRS multi-ascendance.
Qu’a montré l’étude ?
Une amélioration des performances du PRS utilisant CT-SLEB a été observée dans les groupes de pays non européens par rapport aux autres outils plus simples. Cela restait vrai, que l’ensemble de données d’entraînement soit petit ou grand ; cependant, cela a affecté la précision des autres calculateurs PRS. Le plus grand nombre de comparaisons a été réalisé entre CT-SLEB et PRS-CSx, cette dernière étant une approche bayésienne.
CT-SLEB a maintenu, voire dépassé, la précision prédictive d’autres outils qui s’appuient davantage sur l’analyse informatique. À mesure que la taille de l’échantillon augmente, le CT-SLEB devient plus précis, quelle que soit la polygénicité, alors qu’avec des échantillons plus petits, il fonctionne mieux avec une polygénicité plus faible.
PRS-CSx a obtenu de meilleurs résultats que CT-SLEB dans de nombreux contextes ; cependant, les deux plates-formes fonctionnent mieux lorsqu’elles utilisent les données des cinq ascendances. En utilisant des données sur deux ascendances, CT-SLEB génère des PRS africains 25 fois plus rapidement que les PRS-CX, en seulement 4,3 minutes. Basé sur des données sur cinq ascendances, le CT-SLEB était plus de 90 fois plus rapide, prenant presque le même temps que 420 minutes.
Les performances prédictives du PRS pour les groupes minoritaires générés par CT-SLEB étaient comparables à celles de la population européenne si la taille de l’échantillon de la première était au moins 45 % supérieure à celle des cohortes européennes. Cependant, la taille de l’échantillon requise pour une prédiction précise varie considérablement en fonction de l’héritabilité des différents caractères.
CT-SLEB est facilement évolutif et peut traiter un nombre beaucoup plus important de SNP. Ainsi, cette plateforme est capable d’améliorer ses performances PRS dans les groupes minoritaires de la population américaine en utilisant des panels SNP plus denses.
Pour de nombreux caractères polygéniques, y compris le caractère cliniquement important des maladies cardiovasculaires (MCV), CT-SLEB prédit le risque bien mieux que PRS-CSx et PolyPred-S+. Dans l’ensemble, ces trois plateformes ont surperformé les autres plateformes ; cependant, aucun n’était supérieur dans tous les contextes.
Même avec la méthode la plus performante et un échantillon de grande taille, un écart substantiel subsistait entre les performances de la SRP dans les populations non-EUR par rapport à la population EUR..»
Quelles sont les implications ?
CT-SLEB est une nouvelle méthode évolutive sur le plan informatique pour générer de puissants PRS à l’aide des données des GWAS dans diverses populations.»
Les résultats de l’étude soulignent la nécessité d’utiliser plusieurs méthodes pour générer des PRS sur plusieurs ascendances. Pour les populations afro-américaines, représentant des populations d’origine africaine qui disposent de peu de données polygéniques de base, avec une précision de prédiction polygénique proportionnellement inférieure, CT-SLEB a produit la plus grande amélioration des performances du PRS.
Les études de simulation ont montré la nécessité de déterminer des tailles d’échantillon appropriées pour une telle prévision. Ces études mettent également en évidence les effets des variations de densité de SNP lors de la prévision du risque d’un trait parmi les personnes d’ascendance multiple, ce qui affectera le choix de la méthode de génération du PRS.
CT-SLEB produit des prédictions un ordre de grandeur plus rapidement que PRS-CSx et est facilement évolutif pour gérer de fortes augmentations du nombre de SNP et davantage de populations.