Dans un article récent publié dans La natureles chercheurs ont analysé 150 119 séquences génomiques de la United Kingdom Biobank (UKB).
Sommaire
Arrière plan
Une caractérisation approfondie et précise des séquences et de la variation phénotypique est nécessaire pour une compréhension détaillée de la façon dont les variations de la séquence du génome humain influencent la diversité phénotypique. Des informations sur cette association ont été découvertes au cours des dix dernières années à l’aide du séquençage du génome entier (WGS) ou du séquençage de l’exome entier (WES) de cohortes importantes présentant des informations phénotypiques riches.
Avec un biais de participation sain, l’UKB enregistre la diversité phénotypique de 500 000 personnes à travers le Royaume-Uni. Le consortium UKB WGS séquence le génome entier de chaque participant à une profondeur médiane d’au moins 23,5 paires de bases.
À propos de l’étude
Dans la présente étude, les chercheurs expliquent l’analyse WGS de 150 119 participants UKB. Dans le groupe de volontaires UKB, les individus ont été choisis de manière pseudo-aléatoire et répartis sur les deux sites de séquençage. Les auteurs ont déclaré que grâce à un score de rang d’épuisement (DR) de fenêtres couvrant le génome, cette vaste base de données de variants permet l’évaluation de la sélection basée sur la diversité des séquences au sein d’une population.
Dans l’ensemble, le rapport d’étude sur la publication initiale des données contient une collection importante de variantes de séquence centrées sur le WGS de 150 119 personnes, y compris de courtes insertions ou suppressions (indels), des polymorphismes mononucléotidiques (SNP), des variantes structurelles (SV) et des microsatellites. .
Chaque appel de variante a été mené conjointement par tous les participants pour fournir une comparaison précise des données. L’ensemble de données résultant a offert une chance rare de rechercher la diversité des séquences humaines et comment elle affecte la variation phénotypique.
En outre, l’équipe décrit certaines des découvertes rendues possibles par cette énorme nouvelle ressource de données WGS qu’il serait difficile, voire impossible, de réaliser à l’aide des ensembles de données WES et SNP.
Résultats
Les chercheurs ont noté que l’ensemble de données généré par le séquençage des génomes entiers de plus de 150 000 participants à l’UKB était d’une ampleur inégalée, offrant l’analyse la plus approfondie de l’hétérogénéité des séquences dans les génomes de la lignée germinale d’une seule population à ce jour.
L’équipe a fourni deux paires de classes de variantes souvent non examinées dans les études d’association à l’échelle du génome (GWAS), à savoir 1) les données indel et SNP et 2) les données SV et microsatellite, identifiant un grand nombre de variantes de séquence parmi les participants au WGS. Ce groupe comprend une gamme de variantes de haute qualité composée de 58 707 036 indels et 585 040 410 SNP, qui représentent 7 % de tous les SNP humains potentiels.
L’examen DR révèle que les exons codants ne représentent qu’une petite partie des zones du génome sujettes à une conservation de séquence significative. Les auteurs ont identifié trois cohortes dans le cadre de l’UKB : une cohorte africaine plus petite, une cohorte sud-asiatique et une importante cohorte irlandaise britannique.
L’étude fournit un panel de référence d’haplotype, ce qui facilite une imputation précise de la plupart des variantes hébergées par trois sujets séquencés ou plus. L’équipe a découvert deux types de variantes habituellement laissées de côté dans les analyses WGS approfondies, à savoir 2 536 688 microsatellites et 895 055 SV.
Comparé au WES des mêmes individus, le nombre d’indels et de SNP était 40 fois plus élevé. Même à l’intérieur des exons codants identifiés, WES a raté 10,7% des variantes découvertes par WGS. La majorité du génome restant n’était pas couverte par WES, y compris les régions non traduites (UTR), les régions promotrices fonctionnellement significatives et les exons non annotés. L’identification de variantes de séquence non codantes rares avec des impacts drastiques sur la ménarche et la taille par rapport à toutes les variantes révélées dans GWAS à ce jour sert d’illustration de l’importance de ces régions.
conclusion
La recherche actuelle offre de nombreux exemples de relations de traits pour des variantes rares avec des impacts profonds en utilisant cette nouvelle ressource puissante de WGS qui n’a pas été découverte auparavant via des enquêtes basées sur WES ou l’imputation.
Collectivement, les scientifiques prévoient que le score DR discuté dans l’article sera un outil précieux pour reconnaître les zones génomiques d’importance fonctionnelle. Néanmoins, des études supplémentaires sont nécessaires pour bien comprendre ses caractéristiques, ses implications et son contraste avec d’autres mesures de conservation et de restriction de séquence.
Alors que les exons codants ont été soumis à une forte sélection purificatrice, comme représenté par une faible valeur DR, ils ne constituent qu’une partie négligeable des zones à faible valeur DR. Les auteurs ont mentionné que la description de la présente recherche du séquençage approfondi et les efforts en cours pour séquencer l’ensemble de l’UKB devraient faire progresser de manière significative les connaissances sur le rôle et la pertinence du génome non codant.
Les découvertes actuelles devraient considérablement améliorer la compréhension du lien entre la variété phénotypique et la variabilité du génome humain lorsqu’elles sont couplées à l’analyse approfondie de la variation phénotypique à travers l’UKB.
Comment l’hypertension artérielle peut augmenter le risque de fibromes utérins