Dans une récente étude publiée sur bioRxiv* serveur de préimpression, les chercheurs ont découvert une recombinaison fréquente de coronavirus de type syndrome respiratoire aigu sévère (SRAS) (SL-CoV) avec divers pools de gènes.
La recombinaison permet aux virus de s’adapter aux pressions sélectives et d’éviter d’accumuler des mutations délétères, qui pourraient conduire à leur extinction. Les virus à ARN simple brin (ss) sens positif (+) présentent des niveaux variables de recombinaison. La génomique des populations a joué un rôle déterminant dans la surveillance du SRAS-CoV-2 et la compréhension des corrélations entre les schémas de transmission et les substitutions génomiques.
De plus, une compréhension quantitative basée sur la génomique des populations de la contribution relative des mutations et de la recombinaison à l’évolution du SRAS-CoV-2 et des SL-CoV est en cours de développement. La plupart des outils pour étudier la recombinaison sont basés sur la phylogénie, dans laquelle les points de rupture de la recombinaison sont évalués en analysant l’incongruence phylogénétique. Les paramètres de recombinaison sont ensuite déduits à l’aide des méthodes de Monte Carlo bayésienne et de la chaîne de Markov.
De telles méthodes ont identifié avec succès des événements de recombinaison. Cependant, leur application aux données de génomique des populations à grande échelle est difficile en raison de la demande de calcul de ces méthodes. Notamment, ces méthodes reposent sur des séquences échantillonnées ou observées et ne capturent pas la recombinaison dans des pools de gènes non observés plus importants.
L’étude et les conclusions
Dans la présente étude, les chercheurs ont adapté une méthode décrite précédemment, mcorr, pour déduire les paramètres de recombinaison des virus à ARNsb (+). Cette méthode a été utilisée à l’origine pour déduire les taux de recombinaison bactérienne. Cependant, une différence notable dans le modèle actuel est la recombinaison par choix de copie des virus à ARN. Le modèle prédit une probabilité conditionnelle d’une substitution synonyme au niveau d’un site génomique, appelée profil de corrélation.
Idéalement, le profil de corrélation devrait diminuer rapidement dans une population virale hautement recombinante, alors que, dans une population non recombinante, le profil devrait être plat. Premièrement, les substitutions corrélées ont été analysées dans le poliovirus. Ils ont généré un graphique à l’échelle du génome du coefficient de corrélation pour les substitutions synonymes par paires dans la région codante (CDS) des principaux sérotypes de poliovirus.
Il a révélé que les substitutions étaient plus probablement corrélées dans les 800 premiers codons. Conformément à la littérature, l’équipe a trouvé une recombinaison substantielle dans le poliovirus. Ensuite, 191 séquences du génome entier de Nextstrain pour les SL-CoV ont été alignées sur un génome de référence du SARS-CoV-2. Les SL-CoV comprenaient le SARS-CoV, le SARS-CoV-2 et les chauves-souris CoV.
Les auteurs ont découvert que des substitutions corrélées s’accumulaient dans le CDS du cadre de lecture ouvert (orf) 1ab précédant le décalage de cadre ribosomal -1 et le pic. Les profils de corrélation et les paramètres de recombinaison ont été calculés pour chaque gène. Il y avait des preuves solides de recombinaison dans la protéine de pointe et orf1a.
Le CDS de la nucléocapside (N) et orf3a a également montré une recombinaison. Les paramètres de recombinaison déduits suggéraient que les gènes qui montraient des signes de recombinaison s’étaient fréquemment recombinés. De plus, des substitutions corrélées ont été mesurées pour le SRAS-CoV-2 à l’aide d’assemblages génomiques complets pour le SRAS-CoV-2 disponibles dans la base de données du National Center for Biotechnology Information (NCBI).
Les chercheurs ont observé des substitutions faiblement corrélées dans le génome du SRAS-CoV-2, contrairement aux SL-CoV. Les profils de corrélation entre plusieurs gènes sont restés plats. L’équipe a estimé la diversité synonyme par paires à travers les 191 SL-CoV et a regroupé les séquences à l’aide de l’algorithme de liaison moyenne pour construire un dendrogramme.
Cet arbre a été divisé en 11 grappes, avec des grappes distinctes pour le SRAS-CoV-2 et le SRAS-CoV et plusieurs grappes pour les chauves-souris CoV. Pour déterminer si un signal clonal statistiquement significatif était présent dans les génomes échantillonnés, la diversité du pool, déduite du profil de corrélation, a été comparée à la diversité de l’échantillon, mesurée à partir des données de séquence.
La divergence mutationnelle a été utilisée comme mesure de la divergence clonale. La différence entre la diversité du pool et celle de l’échantillon a été déterminée en fonction de la variabilité de la mesure de la diversité de l’échantillon, une quantité appelée taille d’effet de clonalité résiduelle (RC). Les paramètres de recombinaison pour les paires de clusters de 11 clusters SL-CoV ont été déduits, et presque toutes les paires de clusters ont montré une recombinaison.
La divergence mutationnelle et la couverture de recombinaison ont été tracées pour ces paires de grappes en fonction de la taille de l’effet RC. Sur la base de la divergence mutationnelle, un arbre de liaison moyen a été construit pour 11 clusters SL-CoV. Les données avaient suffisamment de RC pour déduire les structures clonales de la plupart des lignées SL-CoV.
Alors que le dendrogramme basé sur la distance par paires à l’échelle du génome suggérait que le SRAS-CoV-2 partageait son ancêtre récent le plus commun (MRCA) avec les CoV de chauve-souris du groupe 1, l’arbre clonal indiquait que le SRAS-CoV-2 partageait un MRCA avec les groupes 1, 3 , 4 et 5. Les profils de corrélation du génome entier pour toutes les paires de séquences ont été calculés pour identifier les SL-CoV se recombinant avec des pools de gènes partagés.
La recombinaison entre les paires de séquences a été considérée comme un réseau où les nœuds représentent les souches et les arêtes relient les souches qui se recombinent avec un pool partagé. Le réseau est apparu substantiellement connecté, suggérant que plusieurs paires se recombinaient avec les pools de gènes partagés. Une enquête plus approfondie a révélé que les grappes étaient moins interconnectées, ce qui indique que des pools de gènes distincts étaient présents malgré le niveau élevé de recombinaison et de partage des pools de gènes entre les lignées SL-CoV.
conclusion
En résumé, les auteurs ont montré que la méthode mcorr était adaptable pour déduire les paramètres de recombinaison des SL-CoV. Ils ont démontré l’applicabilité de mcorr aux virus (+) ssRNA. La méthode a ensuite été appliquée aux SL-CoV qui ont révélé de fortes signatures de recombinaison dans le CDS de spike et orf1a. Dans l’ensemble, cette méthode permet l’analyse d’énormes ensembles de données et aide à comprendre l’interaction entre la structure, la sélection et la recombinaison de la population.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.