Dans une récente étude publiée sur medRxiv* serveur de préimpression, les chercheurs ont évalué les variantes du génome humain liées à la sensibilité et à la gravité de la maladie à coronavirus 2019 (COVID-19).
Des études ont rapporté que la susceptibilité génomique de l’hôte peut augmenter le risque d’infections graves par le SRAS-CoV-2 (coronavirus 2 du syndrome respiratoire aigu sévère). De nombreuses études ont été menées sur la génétique de l’hôte pour la sensibilité au COVID-19 ; cependant, les données sur les variantes liées au COVID-19 sont limitées et une base de données des variantes stratifiées par niveaux de confiance fait défaut. De plus, les outils informatiques pour prédire les variantes sévères associées au COVID-19 ne sont actuellement pas disponibles.
Étude : Une base de connaissances complète sur les variants génétiques humains connus et prédits associés à la sensibilité et à la gravité du COVID-19. Crédit d’image : Orphée FX/Shutterstock
À propos de l’étude
Dans la présente étude, les chercheurs ont exploré les facteurs génétiques sous-jacents à la sensibilité de l’hôte à la gravité des infections par le SRAS-CoV-2.
Les fonctions biologiques des gènes de susceptibilité/gravité de l’infection par le SRAS-CoV-2 ont été explorées à l’aide d’analyses d’enrichissement génique, d’importance des caractéristiques, de réseau et de voie. De plus, l’équipe a mené des études d’association à l’échelle du phénome (PheWAS) sur 39 386 individus génotypés par la Mount Sinai BioMe BioBank pour évaluer les effets pléiotropes des variants associés à l’infection par le SRAS-CoV-2 et identifier les similitudes physiologiques entre le COVID-19 et les troubles associés .
Un classificateur de variantes COVID-19 sévères basé sur l’apprentissage automatique a été développé pour estimer les variantes sévères associées au COVID-19 à partir de 82 468 698 variantes de faux-sens génomiques humains. De plus, un site Web de variantes génomiques de l’hôte associé à l’infection SARS-CoV-2 a été créé pour rechercher, soumettre et télécharger des variantes génétiques associées à la sensibilité au COVID-19. Les estimations du classificateur étaient basées sur SHAP (explications basées sur la valeur de Shapley) et l’analyse de l’importance des caractéristiques.
Les variantes génétiques associées au COVID-19 ont été classées en quatre catégories : (i) variantes associées au SRAS-CoV-2 légères ou asymptomatiques ; (ii) les variantes qui pourraient augmenter les risques symptomatiques de COVID-19 ; (iii) variantes sévères connues associées au COVID-19, par exemple celles associées à une pneumonie critique associée au COVID-19 et aux admissions en USI (unité de soins intensifs) ; et (iv) des variantes impliquées dans la déstabilisation structurelle des protéines liées à la sensibilité à l’infection par le SRAS-CoV-2.
Sur la base des niveaux de confiance, les variants ont été classés dans les catégories suivantes : (i) CAV (variants associés au COVID-19), (ii) CAV-FE (CAV avec preuve fonctionnelle), (iii) Fréquence d’allèle-FCP (COVID- 19 corrélation de prévalence), (iv) IP (prédiction in silico) et (v) Fréquence allélique – FCP + IP. Les variantes des catégories CAV et CAV-FE ont été identifiées par des approches de gènes candidats et des études d’association. De plus, l’équipe a recensé des variantes de FCP dans les études examinant l’association entre la fréquence probable de variante COVID-19-associée et la prévalence des infections SARS-CoV-2 dans plusieurs populations.
Des variantes délétères de la catégorie IP ont été identifiées dans des études utilisant exclusivement des approches in silico pour estimer les effets des échanges d’acides aminés sur la sensibilité aux infections par le SRAS-CoV-2. Les variantes CAV-FE et les mutations pathologiques connues de HGMD (base de données sur les mutations génétiques humaines) ont été utilisées pour créer un classificateur d’apprentissage automatique des variantes graves liées au COVID-19. En outre, les réseaux PPI (interaction protéine-protéine), les fonctions biologiques et les maladies considérablement enrichis par des gènes COVID-19 de haute confiance ont été évalués. Enfin, le regroupement basé sur le LD (déséquilibre de liaison) a été effectué pour identifier les variantes associées au COVID-19.
Résultats
L’exploration de texte a produit 1 977 publications pertinentes et 222 études éligibles, à partir desquelles 820 variants génétiques de l’hôte associés au COVID-19 signalés comme affectant la sensibilité au COVID-19 ont été obtenus, dont 719 étaient présents dans 295 gènes et 101 étaient présents dans des sites intergéniques. Par évaluation de confiance, 196 variantes de haute confiance ont été obtenues. Les scores de conservation, le MAF (fréquence des allèles mineurs), les SNV (variants à un seul nucléotide) et les pressions évolutives au niveau du génome ont montré les impacts les plus significatifs sur l’estimation des variants de sensibilité/sévérité du COVID-19.
Les gènes avec des variantes de sensibilité au COVID-19 à haute confiance partageaient des réseaux, des voies, des fonctions biologiques et des maladies, et les catégories de maladies infectieuses et les systèmes immunologiques ont montré la plus grande importance. Une thromboembolie préexistante et une maladie hépatique chronique pourraient augmenter les risques de gravité de la COVID-19.
Par rapport aux variants pathogènes non associés au COVID-19, des variants CAV-FE ont été observés sur des sites significativement moins conservés, avec des variants MAF> 0,1 dans 100 à 1000 paires de bases, inférieur de novo des taux d’excès mutationnels, des scores d’indispensabilité inférieurs, des niveaux inférieurs de H3K36me3 et étaient moins susceptibles d’être associés à un segment protéique désordonné.
Au total, 117 voies significativement surreprésentées, parmi lesquelles les voies de signalisation IFN-α/β (interféron-alpha/bêta), de signalisation du récepteur toll-like 4 (TLR4) et TBK1 (TANK-binding kinase 1) /IKK (IκB kinase) l’activation du facteur de transcription régulateur de l’interféron médiée par epsilon (IRF) 3 / IRF7 étaient les plus significativement surreprésentées. Les voies d’hypercytokinémie/hyperchimiokinémie dans la pathogenèse de la grippe, la pathogenèse du coronavirus, la signalisation de la neuroinflammation et la signalisation de la tempête de cytokines induite par l’agent pathogène étaient les voies les plus importantes.
La terminologie la plus significativement enrichie de l’ontologie du phénotype humain (HPO) était celle des « infections virales récurrentes ». L’analyse basée sur LD a montré que 285, 286 et 288 variantes étaient indépendamment associées au COVID-19 chez les Afro-Américains, les Américains européens et les Américains hispaniques sur 458, 466 et 629 phénotypes, respectivement.
Dans l’ensemble, les résultats de l’étude ont montré une base de connaissances complète sur la génomique humaine liée à l’infection par le SRAS-CoV-2, avec un classificateur basé sur l’apprentissage automatique et des estimations prédéterminées pour les variantes de faux-sens génomiques de l’hôte basées sur le gène, la variante, le réseau et la protéine. fonctionnalités de niveau.
*Avis important
medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.