Alors que la pandémie de COVID-19 circule dans le monde, les scientifiques tentent toujours de comprendre la complexité du coronavirus du syndrome respiratoire aigu sévère 2 (SRAS-CoV-2), l'agent causal de la maladie COVID-19. Cependant, il reste un long chemin à parcourir pour comprendre son contenu génomique. Maintenant, une nouvelle étude menée par des chercheurs du Massachusetts Institute of Technology et du Center for Computational Biology, Flatiron Institute et publiée en ligne sur le bioRxiv * Le serveur de préimpression décrit comment l'utilisation de la génomique comparative aide à identifier les gènes fonctionnels codants et non codants des protéines.
Novel Coronavirus SARS-CoV-2 Cette image au microscope électronique à balayage montre SARS-CoV-2 (jaune) – également connu sous le nom de 2019-nCoV, le virus qui cause COVID-19 – isolé d'un patient aux États-Unis, émergeant de la surface de cellules (roses) cultivées en laboratoire. Image capturée et colorisée aux Rocky Mountain Laboratories (RML) du NIAID à Hamilton, Montana. Crédits: NIAID
Sommaire
Lecture du génome viral
Plus des deux tiers du génome du virus SARS-CoV-2 comprend un grand cadre de lecture ouvert appelé ORF1ab avec certaines séquences qui sont conservées parmi les coronavirus. Ce segment est traduit en un grand précurseur de protéine qui est ensuite divisé en plusieurs protéines non structurales (nsp) nsp1-nsp10 et nsp12-nsp16.
Ce segment contient un décalage de cadre pour la traduction, dont l'échec, dans ORF1a, entraîne la terminaison de la traduction quatre codons plus tard. Ceci est ensuite traduit en une protéine différente qui est clivée en nsp1-nsp11. ORF1 code plusieurs protéines matures, y compris l'ARN polymérase ARN-dépendante (Pol), une hélicase (Hel) et les protéines nécessaires à la transcription, au clivage et à l'assemblage viral. Il empêche la réponse de la cellule hôte ainsi que l'immunosuppression.
Transcriptions sous-génomiques
L'ARN viral est traduit dans la cellule hôte humaine à l'aide d'un mécanisme de traduction humain, qui transcrit le premier ORF. Mais pour atteindre les gènes dans le tiers restant du génome, le processus est plus compliqué. Le virus génère d'abord un transcrit sous-génomique positif à négatif dépendant de l'ARN de l'extrémité 3 ’à une séquence de régulation de la transcription ou TRS, puis de l'extrémité 5’. Ceci est suivi d'une transcription négative à positive dépendante de l'ARN comme deuxième étape.
Annotation génomique – Ce qui est connu
Pour comprendre le fonctionnement d'un organisme, il est important d'annoter correctement le génome pour les segments codant pour les protéines. Cela aidera à prédire comment les variantes affectent le phénotype en montrant d'abord comment elles modifient la séquence d'acides aminés.
Ce dernier tiers du génome contient des gènes pour la protéine de pointe, la protéine d'enveloppe et les protéines membranaires, sur ORF2, ORF4 et ORF5, respectivement. Ceux-ci conduisent l'assemblage viral. La protéine nucléocapside conditionne ensuite l'ARN viral.
Le reste des ORF est inconnu, et leur annotation est principalement basée sur l'homologie et les algorithmes géniques, conduisant à un désaccord considérable quant au gène codant pour les protéines fonctionnelles. Des techniques expérimentales pour identifier clairement quels emplacements génomiques transcrivent des gènes spécifiques et les produits protéiques qui leur sont associés sont désespérément nécessaires pour mieux comprendre le virus.
Plus de 1800 mutations et variantes de gènes ont été identifiées dans la pandémie actuelle, mais on ne sait pas lesquelles sont fonctionnelles.
Comment l'étude a été réalisée
La présente étude vise à relever ces trois défis en utilisant la génomique comparative pour effectuer une analyse systématique. Cela aidera à identifier ceux des SRO encore inconnus qui codent pour les protéines fonctionnelles et à trouver ces variantes génétiques ayant une importance fonctionnelle et thérapeutique.
L'étude comprenait 44 génomes complets de coronavirus étroitement apparentés, qui ont ensuite été alignés à l'échelle du génome pour inclure tous les gènes connus et les ORF putatifs. Cela a aidé les chercheurs à classer les 1 800 variantes inconnues de nucléotide unique (SNV) en celles qui sont probablement bénignes par rapport à celles qui nuiront aux fonctions génétiques conservées.
Les chercheurs ont découvert que les ORF 3a, 6, 7a, 7b et 8 sont des régions fonctionnelles conservées qui codent pour les protéines. L'ORF 10 n'est pas codant pour les protéines mais conserve néanmoins des fonctions importantes. ORF 14 n'est probablement pas codant pour les protéines fonctionnelles.
Importance fonctionnelle et médicale des résultats
Une découverte importante a été que de nombreuses variantes du gène de la protéine de pointe qui sont apparues récemment, alors que le virus se répandait plus largement, perturbent les acides aminés parfaitement conservés. Plusieurs de ces variantes ont été identifiées comme pouvant favoriser une transmission accrue ou une charge virale accrue. Les chercheurs émettent l'hypothèse que cela pourrait être la façon dont le virus s'est adapté à l'hôte humain.
L'identification d'une région dans la protéine nucléocapside, avec 20 acides aminés, qui présente de nombreuses variantes pour les acides aminés conservés à travers le clade des sarbecovirus. Ces variantes pourraient aider à comprendre comment le virus s'est adapté à l'hôte humain.
L'étude a révélé certaines limites des approches expérimentales actuelles, qui peuvent ne capturer que les transcriptions existantes, mais pas le schéma temporel des changements dans le génome dus à l'exposition à une variété d'hôtes dans le passé. Ces techniques, bien qu'utilisées ici pour classer uniquement les SNV, devraient également être utiles pour d'autres types de variantes, afin de clarifier les liens génotype-phénotype.
Enfin, les chercheurs appellent à des travaux supplémentaires pour identifier les fonctions de gènes encore sans nom et les effets de différentes variantes. Ils disent que cela pourrait «conduire à l'identification des faiblesses du virus». Ils concluent: «Ces annotations de génomique comparative fournissent une ressource générale pour hiérarchiser les variantes et souches fonctionnelles, pour le développement et la spécialisation de vaccins, et pour démêler la biologie moléculaire du SARS-CoV-2.»
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, orienter la pratique clinique / les comportements liés à la santé, ou traités comme des informations établies.