Une équipe dirigée par des chercheurs de l’École de santé publique Johns Hopkins Bloomberg et du National Cancer Institute a développé un nouvel algorithme de notation des risques génétiques pour les maladies majeures dans diverses populations d’ascendance, ce qui est prometteur pour réduire les disparités en matière de soins de santé.
Les algorithmes génétiques de notation des risques sont considérés comme une méthode prometteuse pour identifier les groupes d’individus à haut risque qui pourraient bénéficier d’interventions préventives contre diverses maladies et affections, telles que les cancers et les maladies cardiaques. Ces algorithmes de notation des risques sont basés sur des études génétiques à grande échelle qui associent certaines variantes de l’ADN à des risques de maladie plus ou moins élevés.
La grande majorité des sujets de ces études génétiques étaient des personnes d’ascendance européenne. Les algorithmes de notation des risques qui en résultent n’ont pas toujours donné de bons résultats dans d’autres populations, en raison de différences génétiques entre les populations.
La nouvelle méthode, décrite dans un article paru en ligne aujourd’hui dans Génétique naturelle, a été appliqué aux données d’études génétiques de 23andMe Inc. et d’autres sources impliquant plus de 5 millions d’individus dans diverses populations afin de générer des scores génétiques pour 13 traits, y compris des problèmes de santé comme les maladies coronariennes et la dépression, dans cinq catégories d’ascendance différentes : Européen , Africains, Latinos, Asiatiques de l’Est et Asiatiques du Sud. Les chercheurs ont également testé la nouvelle méthode dans le cadre d’études de simulation à grande échelle.
Nous avons montré que notre méthode peut contribuer à combler l’écart de performance en matière de notation des risques pour les populations d’ascendance non européenne. En même temps, nous avons également conclu que nous ne pouvons pas entièrement combler l’écart avec de nouvelles méthodes seules ; nous avons également besoin de plus grands ensembles de données sur ces populations. »
Nilanjan Chatterjee, PhD, auteur principal de l’étude, Professeur émérite Bloomberg au département de biostatistique de l’école Bloomberg
De nombreux modèles d’évaluation des risques dérivés d’études génétiques portant sur des populations d’ascendance non européenne échouent souvent parce que ces études sont généralement à relativement petite échelle. Cela se traduit par un écart de performance en matière d’évaluation du risque entre les populations d’ascendance européenne et celles d’autres origines, ce qui peut contribuer aux disparités en matière de soins de santé.
La nouvelle méthode, que les chercheurs appellent CT-SLEB, a utilisé une combinaison de techniques d’IA, notamment l’apprentissage automatique et la modélisation statistique bayésienne. En plus de la base de données 23andMe, les chercheurs ont « formé » le CT-SLEB sur les données du Global Lipids Genetics Consortium, du programme de recherche All of Us des National Institutes of Health et de la biobanque britannique.
Les analyses comparatives de l’équipe de recherche ont montré que ces nouveaux modèles de notation des risques spécifiques à l’ascendance pour les populations non européennes surpassaient généralement les modèles standard de score de risque polygénique qui sont basés principalement sur des ensembles de données d’ascendance européenne, ou sont basés sur des ensembles de données d’ascendance non européennes plus petits. .
Les chercheurs ont également comparé le CT-SLEB à un certain nombre de méthodes alternatives. Ils ont découvert que la méthode proposée est particulièrement utile pour améliorer les scores de risque génétique dans les populations d’ascendance africaine, où la précision des scores est généralement la plus faible. L’équipe a également découvert que CT-SLEB est beaucoup plus rapide sur le plan informatique que ses concurrents les plus proches et pourrait donc permettre d’analyser un nombre beaucoup plus grand de variantes d’ADN et un plus grand nombre de populations.
L’équipe travaille désormais avec des méthodes plus avancées, encore plus performantes mais toujours rapides en termes de calcul, explique Chatterjee.
Il souligne également que, comme l’ont montré les calculs de l’équipe dans l’étude, disposer de modèles de scores de risque polygéniques qui fonctionnent aussi bien dans les populations d’ascendance non européenne que dans les populations d’ascendance européenne nécessitera davantage d’études d’association à l’échelle du génome dans les populations d’ascendance non européenne.
« Beaucoup de gens pensent que l’apprentissage automatique et l’IA peuvent faire de la magie, mais sans de grandes études bien conçues, les algorithmes ne seront pas aussi utiles », déclare Chatterjee.
L’auteur principal de l’article est Haoyu Zhang, PhD, qui était doctorant à l’école Bloomberg au moment du début de l’étude et est actuellement chercheur à l’Institut national du cancer. Les chercheurs de 23andMe ont contribué au développement de la nouvelle méthode et à l’analyse des données. Le code CT-SLEB est accessible au public via GitHub. La section sur la disponibilité du code dans le document comprend un lien vers GitHub qui inclut le code CT-SLEB.
« Une nouvelle méthode de prédiction polygénique multi-ascendante améliore les performances dans diverses populations » a été co-écrit par Haoyu Zhang, Jianan Zhan, Jin Jin, Jingning Zhang, Wenxuan Lu, Ruzhang Zhao, Thomas Ahearn, Zhi Yu, Jared O’Connell, Yunxuan Jiang , Tony Chen, Dayne Okuhara, équipe de recherche 23andMe, Montserrat Garcia-Closas, Xihong Lin, Bertram Koelsch et Nilanjan Chatterjee.
Le financement a été fourni par les National Institutes of Health (K99 CA256513-01, R00 HG012223, 5T32HL007604-37, R35-CA197449, U19-CA203654, R01-HL163560, U01-HG009088, U01-HG012064, R01 HG0. 10480-01 et U01HG011724).