Une étude récente publiée dans Cellule illustré une carte du génome humain avec une sensibilité au dosage à travers les troubles.
Sommaire
Arrière plan
Les duplications et les suppressions de segments génomiques, communément appelées variantes du nombre de copies (CNV), ont été identifiées comme des voies évolutives importantes depuis plus de cinq décennies. Néanmoins, seuls quelques cas de CNV chez l’homme offrent des avantages adaptatifs.
D’autre part, les CNV rares (rCNV), comprenant des duplications et des délétions rares dans l’ensemble de la population humaine, peuvent augmenter considérablement le risque de maladie. Ces rCNV ont été largement associés à des maladies complexes et mendéliennes. De plus, les troubles génomiques (GD), un sous-groupe de rCNV liés à la maladie, ont été largement discutés dans la littérature depuis de nombreuses années.
Fait intéressant, il a toujours été difficile de trouver des gènes conducteurs sensibles à la dose (DS) parmi les rCNV. De plus, les segments DS à l’échelle du génome et les annotations de gènes font toujours défaut. Il n’y a pas de cadres communément acceptés pour évaluer la triplosensibilité et l’haploinsuffisance pour tout gène humain.
En outre, il est généralement incertain si deux ou plusieurs gènes haploinsuffisants (HI), triplosensibles (TS) séparés ou le même gène DS bidirectionnel sont responsables des phénotypes GD réciproques liés à la duplication et à la suppression. Il existe également un besoin urgent de cartes détaillées de la sensibilité bidirectionnelle à la posologie tout au long des troubles pour l’interprétation clinique et l’étude de la maladie humaine.
À propos de l’étude
La présente étude visait à mesurer les caractéristiques de l’haploinsuffisance ou de l’intolérance de délétion et de la triplosensibilité ou de l’intolérance de duplication sur l’ensemble du génome humain. L’équipe a harmonisé et méta-analysé les rCNV de 950 278 personnes pour créer une bibliothèque à l’échelle du génome des relations rCNV pour 54 phénotypes de maladie.
De plus, ils ont utilisé 145 annotations génomiques avec ces rCNV pour prévoir les probabilités de triplosensibilité (pTriplo) et d’haploinsuffisance (pHaplo) pour tous les gènes codant pour les protéines.
En détail, les enquêteurs ont collecté des rCNV identifiés par des puces à ADN couvrant 17 sources, allant des laboratoires de diagnostic aux biobanques nationales. Ils ont profité de la taille actuelle de l’échantillon, en s’appuyant sur des années de recherche influente sur la CNV dans la maladie, pour trouver méthodiquement des connexions rCNV pour chaque phénotype.
Les chercheurs ont ensuite cherché à découvrir des gènes spécifiques augmentés pour coder les rCNV chez les patients que les témoins en utilisant des tests de connexion rCNV à l’échelle de l’exome. Ils ont émis l’hypothèse que, même incomplète, une bibliothèque de mesures de sensibilité au dosage pour chaque gène constituerait un outil potentiellement utile pour l’étude de la génétique clinique et de la génomique. Ainsi, l’équipe a créé une technique en deux étapes pour prévoir par calcul le pTriplo et le pHaplo pour 18 641 gènes codant pour des protéines autosomiques.
résultats et discussion
Collectivement, les chercheurs ont produit une bibliothèque à l’échelle du génome de statistiques de corrélation normalisées du rCNV en méta-analysant une importante collection d’ensembles de données biomédicales pour évaluer l’impact des rCNV sur 54 maladies humaines. Avec une sélection de haute confiance de 88 segments génomiques DS ayant une importance rigoureuse à l’échelle du génome, ce catalogue comprend un catalogue consensuel de 178 segments génomiques DS associés à la maladie humaine.
Les chercheurs ont également démontré qu’une partie importante de ces segments contient vraisemblablement au moins un gène pilote DS en fonction des enrichissements des gènes de la maladie restreints et des concentrations non uniformes de mutations de novo dommageables (DNM) à l’intérieur des segments rCNV.
La densité accrue de gènes restreints détectés par l’équipe pour les rCNV pléiotropes était cohérente avec un cadre de base d’environ un gène causal par phénotype par segment. En outre, cela concordait avec les informations disponibles sur quelques GD significatifs, tels que le lien entre les délétions GD 22q11.2 et les anomalies cardiaques et rénales du facteur de transcription T-box 1 (TBX1) et du régulateur CT10 du proto-oncogène de type kinase, protéine adaptatrice (CRKL), respectivement.
L’ensemble des conséquences génétiques de la plupart des rCNV était susceptible d’être plus complexe, compte tenu des impacts cis-régulateurs connus, des contacts gène-gène et de la pénétrance ou de l’expressivité variée attribuables au contexte polygénique et aux variantes secondaires.
Les auteurs ont réorienté les outils de cartographie fine des études d’association à l’échelle du génome (GWAS) pour sélectionner de manière statique des gènes spécifiques à l’intérieur de grands rCNV dans un éventail d’architectures génétiques et de tailles d’effet. Les rCNV et les variantes courtes se rassemblent généralement sur les mêmes gènes causaux aux locus liés à la maladie, selon les modèles que l’équipe a découverts en combinant des ensembles de données de variantes courtes. Cette convergence pourrait indiquer un mécanisme, comme le montrent les augmentations sélectives en direction de la CNV des variants tronquant les protéines (PTV) non couverts et des DNM faux-sens.
Enfin, l’équipe a utilisé les données de l’étude pour prévoir la sensibilité au dosage de chaque gène autosomique codant pour les protéines. Pour analyser les duplications rares et même quelques variantes de faux-sens liées à la maladie, pour lesquelles les effets de perte de fonction (LoF) et de gain de fonction sont difficiles à discerner in silico, les scores de triplosensibilité actuels en particulier peuvent offrir une perspective unique.
Conclusion
Dans l’ensemble, l’harmonisation et la méta-analyse des rCNV d’environ 1 000 000 de personnes ont permis aux auteurs de créer une bibliothèque pangénomique de sensibilité au dosage couvrant 54 maladies. Ce processus a défini 163 segments DS liés à au moins une maladie. L’équipe a classé ces segments à l’aide d’une cartographie statistique fine, car ils contenaient fréquemment des gènes pilotes DS dominants et étaient généralement denses en gènes.
Enfin, les scientifiques ont créé un cadre d’apprentissage automatique d’ensemble pour estimer les probabilités de sensibilité au dosage (pHaplo et pTriplo) pour tous les gènes autosomiques. Ce modèle a révélé 2 987 gènes HI et 1 559 gènes TS, comprenant 648 gènes TS uniques.
Notamment, les chercheurs ont mis toutes les métriques et cartes de l’étude actuelle à la disposition du public en tant que ressource ouverte. Ils prévoyaient que les résultats de l’étude sur la sensibilité à la dose seraient très bénéfiques pour l’étude des maladies humaines et de la génétique clinique.