Dans une étude récente publiée sur le serveur de préimpression medRxiv*, les chercheurs présentent une nouvelle méthode pour produire un regroupement génomique stable des cas de coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) connus sous le nom de Cov2clusters.
Cet outil de regroupement utilise des données de séquence recueillies au fil du temps pour produire des grappes plus stables que les autres méthodes de regroupement phylogénétique couramment utilisées. De plus, leur méthode est fournie sous forme de package R, permettant ainsi son utilisation dans les milieux de la recherche et de la santé publique pour étudier la dynamique de transmission du SRAS-CoV-2.
Étude: Cov2clusters : regroupement génomique des séquences du SRAS-CoV-2. Crédit d’image : Moulin à café/Shutterstock.com
Sommaire
Contexte
Le développement rapide des vaccins contre la maladie à coronavirus 2019 (COVID-19), en plus de la mise en œuvre de mesures de distanciation non pharmaceutiques/sociales, a réussi à atténuer l’impact de la pandémie en réduisant la transmission virale, les hospitalisations et les taux de mortalité. Néanmoins, le COVID-19 reste une préoccupation mondiale en raison de l’émergence continue de variantes préoccupantes (COV) du SRAS-CoV-2 plus transmissibles et virulentes, de la diminution des anticorps induits par les vaccins, de la réticence face aux vaccins et de l’inégalité d’accès aux vaccins et aux traitements.
Une quantité croissante de données sur la séquence du génome entier du SRAS-CoV-2 (WGS) est partagée chaque jour via des référentiels mondiaux, ce qui permet une comparaison génomique presque en temps réel de l’agent pathogène. Ces données peuvent être utilisées pour développer de nouveaux outils faciles à mettre en œuvre qui peuvent identifier des grappes de cas liés aidant à la compréhension de l’épidémiologie régionale et éclairant les politiques de santé publique, telles que la mise en œuvre de restrictions dans certains contextes à risque de transmission élevé.
Le nombre cumulé (A) et la proportion de lignée (B) de séquences du SRAS-CoV-2 par semaine incluses dans l’étude, colorées par lignée. Les principales lignées présentes dans les données sont annotées.
L’utilité de définir les clusters SARS-CoV-2
Les cas liés au génome avec une démographie partagée doivent être identifiés à une résolution plus élevée qu’une attribution de lignée partagée ou simplement par la recherche des contacts. Actuellement, le système Pangolin est utilisé pour attribuer une nomenclature aux lignées SARS-CoV-2 ; cependant, Pangolin a été dynamique tout au long de la pandémie et ne peut pas fournir une résolution suffisante pour les enquêtes épidémiologiques.
Ainsi, les chercheurs de la présente étude recommandent un système où le regroupement des séquences par similarité génomique est aidé par des informations épidémiologiques. Cela fournirait par conséquent une résolution et une stabilité nécessaires aux applications de santé publique au cours d’une pandémie dynamique.
À ce jour, des méthodes de regroupement d’arbres phylogénétiques ont été appliquées pour identifier les grappes de transmission putatives dans le SRAS-CoV-2 sur la base des divergences génomiques. Cependant, en raison de la propagation rapide du SRAS-CoV-2 avec des altérations relativement moindres de la diversité génétique, ainsi que des périodes de remplacement de la lignée par de nouveaux COV avec une diversité génétique régionale réduite dans le virus, le regroupement basé uniquement sur la variation génétique peut ne pas être suffisant pour identifier efficacement les grappes significatives dans le SRAS-CoV-2. De plus, la définition de clusters à l’aide d’un seuil de distance génétique fixe peut entraîner une modification de la désignation des clusters au fil du temps à mesure que davantage de séquences deviennent disponibles.
Amélioration de la résolution et de la sensibilité des Cov2clusters
Grâce à l’utilisation de leur nouvelle méthode pour construire des grappes génomiques du SRAS-CoV-2, les chercheurs utilisent la probabilité par paires de regroupement sous un modèle de régression logit, dans lequel ils lient les cas sous un seuil de probabilité donné. Le modèle utilise un modèle de régression logit basé sur la divergence de séquence et les dates de collecte des échantillons. Le modèle est suffisamment flexible pour ajouter une résolution supplémentaire à ce regroupement en incorporant des données épidémiologiques, telles que la géographie, les données de contact et les événements d’exposition.
Contrairement aux approches de regroupement précédentes qui reposent souvent uniquement sur l’inférence phylogénétique (référence de groupe d’arbres), le regroupement des isolats de cette manière par paires permet une plus grande stabilité des groupes dans le temps, ainsi qu’une résolution en incluant des informations épidémiologiques sans nécessiter d’enquête manuelle fastidieuse. .”
L’équipe a testé sa nouvelle méthode sur les données de séquence du SRAS-CoV-2 recueillies au cours des première, deuxième et troisième vagues de la pandémie de COVID-19 dans la province de la Colombie-Britannique au Canada du 15 mars 2020 au 13 août 2021.
Les résultats de la nouvelle méthode de regroupement génomique ont été comparés à trois seuils de probabilité par paires de 0,7, 0,8 et 0,9 pour lier des séquences pour former des grappes. À cette fin, les chercheurs ont constaté que leur approche formait les grappes les plus stables à un seuil de probabilité de 0,8 dans les données cliniques.
Par rapport à d’autres outils de clustering phylogénétique, la sensibilité des Cov2clusters à un seuil de probabilité de 0,8 était plus élevée que TreeCluster ‘max_clade’ et ‘single_linkage’. De plus, les clusters produits étaient plus stables à mesure que les cas étaient ajoutés au fil du temps.
Ce résultat a une importance particulière pour l’utilité de cette méthode dans la surveillance de la santé publique en temps réel, où les ensembles de données de séquençage augmentent avec le temps, et la stabilité des désignations de cluster est bénéfique pour la notification et la surveillance.
*Avis important
medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.