La pandémie actuelle de la maladie à coronavirus 2019 (COVID-19) est causée par un nouveau coronavirus, à savoir le coronavirus-2 du syndrome respiratoire aigu sévère (SRAS-CoV-2). Des exemples d’autres coronavirus à haute transmissibilité et infectant les humains sont le syndrome respiratoire du Moyen-Orient (MERS) et le syndrome respiratoire aigu sévère (SRAS).
Étude : CORSID permet l’identification de novo de séquences régulatrices de la transcription et de gènes chez les coronavirus. Crédit d’image : vchal/Shutterstock
Sommaire
Traduction de coronavirus genome
Les coronavirus sont des génomes à ARN simple brin et de sens positif qui sont traduits par le ribosome hôte. Le génome du coronavirus est constitué de plusieurs gènes qui sont exprimés et traduits via deux mécanismes différents. Le premier mécanisme implique l’invasion du virus dans la cellule hôte et la traduction du génome viral en utilisant la machinerie de l’hôte pour produire des polypeptides. Ces protéines correspondent à un ou deux cadres de lecture ouverts (ORF) qui se chevauchent. Le deuxième mécanisme implique l’auto-clivage de polypeptides pour synthétiser plusieurs protéines non structurelles. Ces protéines comprennent la formation d’ARN-polymérase dépendante de l’ARN (RdRP), dont la fonction est de médier l’expression des gènes viraux restants via une transcription discontinue.
Des études antérieures ont révélé que la RdRP a tendance à changer de modèle après avoir rencontré des séquences régulatrices de la transcription (TRS). Ceux-ci sont positionnés dans la région 5′ non traduite (UTR) du génome, connue sous le nom de TRS-L (L pour leader), et en amont de chaque gène viral, appelé TRS-B (B pour le corps). Ce mécanisme est associé à la synthèse de nombreux ARNm subgénomiques qui sont traduits en protéines virales structurelles et accessoires essentielles au cycle de vie viral. Par conséquent, l’identification et la caractérisation de la région TRS sont essentielles pour élucider la régulation et l’expression des protéines virales.
Les scientifiques ont émis l’hypothèse que la présence de séquences régulatrices pourrait être utilisée efficacement pour identifier instantanément et avec précision les sites TRS ainsi que les gènes viraux associés dans les génomes de coronavirus non annotés. Cette étude est disponible sur le bioRxiv* serveur de préimpression.
Bien que des études antérieures aient formulé des méthodes pour identifier les sites TRS ou les gènes viraux, à ce jour, les chercheurs n’ont pas développé de méthode pour identifier les deux simultanément. Des études antérieures ont révélé que les TRS contiennent des séquences conservées de 6 à 7 nt de long (séquences centrales), et les TRSL et les TRS-B peuvent être identifiés dans les coronavirus à l’aide de méthodes de recherche de motifs à usage général.
MEME est une méthode couramment utilisée basée sur la maximisation des attentes pour localiser simultanément les apparitions de plusieurs motifs. Les scientifiques ont indiqué que la seule méthode disponible à ce jour pour identifier les sites TRS dans les coronavirus en particulier est SuPER. Cette méthode utilise la séquence du génome du coronavirus avec des emplacements de gènes spécifiés et des informations de structure taxonomique et secondaire comme entrées pour l’analyse. Une autre lacune dans la recherche mise en évidence par les chercheurs est l’indisponibilité de méthodes pour identifier les gènes viraux dans les séquences non annotées du génome du coronavirus.
Gène jedentition
Deux des outils de prédiction de gènes couramment utilisés sont Glimmer3 et Prodigal. Glimmer3 est basé sur le modèle de Markov pour déterminer les scores de similitude avec les ORF, après quoi il identifie les gènes qui se chevauchent pour générer la liste des gènes prédits. Au contraire, Prodigal est basé sur une approche heuristique associée à des paramètres affinés, optimisés pour identifier les gènes souhaités chez les procaryotes. Cependant, ces outils génétiques sont incapables d’étudier la séquence régulatrice et les sites TRS situés en amont des gènes dans le génome.
Fait intéressant, dans cette étude, les chercheurs ont introduit l’identification TRS (TRS-ID) et l’identification TRS et génique (TRS-GENE-ID), pour localiser les sites TRS dans un génome de coronavirus avec des annotations génétiques spécifiées. De plus, les sites TRS et les gènes régulateurs dans un génome de coronavirus non annoté pourraient être identifiés simultanément. Les chercheurs ont introduit CORSID-A (CORe Sequence IDentifier), un algorithme de programmation dynamique (DP) qui étend la récurrence classique de Smith-Waterman pour identifier TRS-I.
CORSID a également été appliqué pour résoudre le problème TRS-GENE-ID. Il peut incorporer une formulation d’ensemble indépendante du poids maximum sur un graphique d’intervalle pour localiser les sites et les gènes TRS. Les chercheurs ont évalué les performances des méthodes nouvellement développées sur les génomes de coronavirus obtenus auprès de GenBank. Ils ont découvert que CORSID-A est plus avancé que MEME et SuPER pour identifier les sites TRS. De plus, CORSID a montré de meilleurs résultats par rapport à deux autres outils génétiques susmentionnés couramment utilisés, Glimmer3 et Prodigal. Cette méthode peut également identifier des événements de recombinaison dans un génome. De plus, les scientifiques ont révélé que CORSID permet l’identification de novo des sites et des gènes TRS dans des coronavirus précédemment non annotés.
Conclusion et Future rrecherche
Les auteurs ont déclaré que CORSID est la première méthode qui peut effectuer une identification simultanée et précise des sites TRS ainsi que des gènes dans les génomes des coronavirus sans nécessiter d’informations liées à la structure taxonomique ou secondaire de la protéine.
Les auteurs ont recommandé plusieurs pistes de recherche future. Par exemple, actuellement, CORSID nécessite le génome complet comme entrée pour identifier les sites TRS et les gènes. Cependant, les chercheurs visent à modifier leur méthode afin qu’elle puisse effectuer l’identification des gènes à l’aide de génomes de référence partiels. Cela pourrait être atteint en tirant parti des informations d’autres coronavirus qui ont des génomes complets avec des sites TRS similaires. À l’heure actuelle, cette méthode est axée sur l’identification des gènes des coronavirus ; cependant, il peut également être étendu à d’autres virus.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, orienter la pratique clinique/le comportement lié à la santé, ou traités comme des informations établies.