La prédisposition à certaines maladies dépend en grande partie des innombrables variantes de notre génome. Cependant, il est jusqu’à présent difficile de déterminer l’influence de ces variantes sur la présentation de certains traits pathologiques, notamment dans le cas de variantes génétiques qui ne se produisent que rarement dans la population. Des chercheurs du Centre allemand de recherche sur le cancer (DKFZ), du Laboratoire européen de biologie moléculaire (EMBL) et de l’Université technique de Munich ont mis au point un algorithme basé sur l’apprentissage profond qui permet de prédire les effets de variantes génétiques rares. Cette méthode permet de distinguer plus précisément les personnes à haut risque de maladie et facilite l’identification des gènes impliqués dans le développement des maladies.
Le génome de chaque individu diffère de celui de ses semblables par des millions de composantes individuelles. Ces différences dans le génome sont appelées variantes. Nombre de ces variantes sont associées à des caractéristiques biologiques et à des maladies particulières. Ces corrélations sont généralement déterminées à l'aide d'études d'association pangénomique.
Mais l’influence des variants rares, dont la fréquence est de 0,1 % ou moins dans la population, est souvent négligée statistiquement dans les études d’association. « Les variants rares en particulier ont souvent une influence nettement plus grande sur la présentation d’un trait biologique ou d’une maladie », explique Brian Clarke, l’un des premiers auteurs de la présente étude. « Ils peuvent donc aider à identifier les gènes qui jouent un rôle dans le développement d’une maladie et qui peuvent ensuite nous orienter vers de nouvelles approches thérapeutiques », ajoute la co-première auteure Eva Holtkamp.
Afin de mieux prédire les effets des variants rares, les équipes dirigées par Oliver Stegle et Brian Clarke du DKFZ et de l'EMBL et Julien Gagneur de l'Université technique de Munich ont désormais développé un outil d'évaluation des risques basé sur l'apprentissage automatique. « DeepRVAT » (lsont variante unassociation t(esting), comme les chercheurs ont nommé la méthode, est la première à utiliser l'intelligence artificielle (IA) dans les études d'association génomique pour déchiffrer des variantes génétiques rares.
Le modèle a été initialement formé à partir des données de séquences (séquences exomes) de 161 000 individus de la UK Biobank. Les chercheurs ont également intégré des informations sur les caractéristiques biologiques génétiquement influencées des individus ainsi que sur les gènes impliqués dans ces caractéristiques. Les séquences utilisées pour la formation comprenaient environ 13 millions de variantes. Pour chacune d'entre elles, des « annotations » détaillées sont disponibles, qui fournissent des informations quantitatives sur les effets possibles que la variante concernée peut avoir sur les processus cellulaires ou sur la structure des protéines. Ces annotations ont également été un élément central de la formation.
Après l'entraînement, DeepRVAT est capable de prédire pour chaque individu quels gènes sont altérés dans leur fonction par des variants rares. Pour ce faire, l'algorithme utilise des variants individuels et leurs annotations pour calculer une valeur numérique qui décrit dans quelle mesure un gène est altéré et son impact potentiel sur la santé.
Les chercheurs ont validé DeepRVAT sur des données génomiques provenant de la UK Biobank. Pour 34 caractéristiques testées, c'est-à-dire des résultats d'analyses sanguines pertinentes pour la maladie, la méthode de test a trouvé 352 associations avec des gènes impliqués, surpassant de loin tous les modèles existants auparavant. Les résultats obtenus avec DeepRVAT se sont avérés très robustes et mieux reproductibles dans des données indépendantes que les résultats d'approches alternatives.
Une autre application importante de DeepRVAT est l’évaluation de la prédisposition génétique à certaines maladies. Les chercheurs ont combiné DeepRVAT avec un score de risque polygénique basé sur des variantes génétiques plus courantes. Cela a considérablement amélioré la précision des prédictions, en particulier pour les variantes à haut risque. En outre, il s’est avéré que DeepRVAT reconnaissait des corrélations génétiques pour de nombreuses maladies – notamment diverses maladies cardiovasculaires, types de cancer, maladies métaboliques et neurologiques – qui n’avaient pas été trouvées avec les tests existants.
DeepRVAT a le potentiel de faire progresser considérablement la médecine personnalisée. Notre méthode fonctionne quel que soit le type de trait et peut être combinée de manière flexible avec d'autres méthodes de test.
Oliver Stegle, physicien et data scientist
Son équipe souhaite maintenant tester l’outil d’évaluation des risques dans le cadre d’essais à grande échelle et le mettre en pratique le plus rapidement possible. Les scientifiques sont déjà en contact avec les organisateurs d’INFORM, par exemple. L’objectif de cette étude est d’utiliser les données génomiques pour identifier des traitements personnalisés pour les enfants atteints de cancer qui connaissent une rechute. DeepRVAT pourrait aider à découvrir la base génétique de certains cancers infantiles.
« Je trouve passionnant l'impact potentiel de DeepRVAT sur les applications liées aux maladies rares. L'un des principaux défis de la recherche sur les maladies rares est le manque de données systématiques à grande échelle. En tirant parti de la puissance de l'IA et du demi-million d'exomes de la UK Biobank, nous avons objectivement identifié les variantes génétiques qui altèrent le plus significativement la fonction des gènes », explique Julien Gagneur de l'Université technique de Munich.
L'étape suivante consiste à intégrer DeepRVAT dans l'infrastructure de l'archive allemande du génome humain (GHGA) afin de faciliter les applications dans le diagnostic et la recherche fondamentale. Un autre avantage de DeepRVAT est que la méthode nécessite beaucoup moins de puissance de calcul que des modèles comparables. DeepRVAT est disponible sous la forme d'un progiciel convivial qui peut être utilisé soit avec les modèles d'évaluation des risques pré-entraînés, soit formé avec les propres ensembles de données des chercheurs à des fins spécialisées.
Brian Clarke, Eva Holtkamp, Hakime Öztürk, Marcel Mück, Magnus Wahlberg, Kayla Meyer, Felix Munzlinger, Felix Brechtmann, Florian R. Hölzlwimmer, Jonas Lindner, Zhifen Chen, Julien Gagneur, Oliver Stegle : l'intégration des annotations Variant à l'aide de réseaux profonds est améliorée tests de variantes rares.