Dans une étude récente publiée sur le bioRxiv* serveur de préimpression, les chercheurs étudient les séquences nucléotidiques de la nouvelle variante préoccupante du coronavirus 2 (SRAS-CoV-2) Omicron (B.1.1.529) du syndrome respiratoire aigu sévère (COV) avec d’autres séquences nucléotidiques en accès libre, publiquement base de données GISAID disponible.
Étudier: Analyse de grappes à l’échelle du génome non supervisée : les séquences nucléotidiques de la variante omicron du SRAS-CoV-2 sont similaires aux séquences du début de 2020. Crédit d’image : PHOTOCREO Michal Bednarek/Shutterstock.com
En décembre 2021, la base de données GISAID comprenait plus de six millions de séquences génomiques du SARS-CoV-2. Celles-ci incluent des séquences génomiques de la variante Omicron récemment découverte, ainsi que des souches précédentes qui ont été collectées auprès de patients atteints de la maladie à coronavirus 2019 (COVID-19) dans le monde depuis le début de la pandémie en 2020. Plusieurs études précédentes ont effectué un génome- large analyse des génomes du SRAS-CoV-2 à l’aide d’approches basées sur des modèles qui supposent une structure arborescente phylogénétique sous-jacente.
Sommaire
À propos de l’étude
Dans la présente étude, les chercheurs ont utilisé une analyse de grappes à l’échelle du génome non supervisée basée sur la matrice de similarité de Jaccard. Ici, un ensemble donné de séquences nucléotidiques a été attribué à une séquence de référence, qui a été suivie d’une analyse en composante principale (ACP).
Par la suite, toutes les séquences ont été traduites dans une matrice de Hamming, qui a indiqué toutes les mutations de mésappariement par rapport à la séquence de référence. La matrice de Hamming sert d’entrée à la matrice de similarité de Jaccard, qui se traduit par un indice de similarité entre zéro et un pour toutes les comparaisons par paires de séquences. L’ACP est ensuite appliquée à la matrice de similarité Jaccard pour identifier les grappes de génomes du SRAS-CoV-2.
Les résultats de l’étude ont été présentés comme les deux premiers composants principaux de la matrice de Jaccard, qui montrent une progression de toutes les séquences nucléotidiques dans le temps. Ces composants sont codés par couleur selon la région de l’Organisation mondiale de la santé (OMS), l’emplacement à partir duquel chaque séquence a été soumise, la date de soumission et le clade, respectivement. Notez qu’il existe un total de 11 clades du génome du SRAS-CoV-2 disponibles sur GISAID, qui incluent G, GH, GK, GR, GRA, GRY, GV, L, O, S et V.
Résultats de l’étude
Les chercheurs ont initialement identifié 132 065 séquences génomiques, qui satisfaisaient aux cinq attributs de qualité des données offerts par GISAID. Cela comprenait Achevée (séquences d’une longueur minimale de 29 000 paires de bases), faible couverture exclue (séquences à plus de 5% de N-bases), données de collecte terminées (envois avec une date de collecte année-mois-jour complète), couverture élevée (séquences avec moins de 1% de N-bases), et avec le statut du patient (séquences avec des méta-informations sous forme d’âge, de sexe et de statut du patient).
Les deux premiers composants principaux de la matrice Jaccard, codés par couleur par région de l’OMS (AFRO en rouge, EMRO en bleu, EURO en violet, PAHO en orange, SEARO en vert, WPRO en noir). Les 10013 séquences de GISAID sont affichées, un point par séquence. Les échantillons d’omicron sont représentés par des triangles.
Plus tard, l’ensemble de données a été sous-échantillonné à 10 000 séquences en raison de la limite imposée au calcul par la matrice de similarité Jaccard et l’ACP. Enfin, les chercheurs ont ajouté les 287 séquences des variantes Omicron disponibles sur GISAID au 26 décembre 2021, conduisant à un total de 10 287 séquences génomiques pour l’analyse de cette étude. Les informations de métadonnées utilisées pour l’étude étaient l’emplacement géographique où les séquences ont été collectées.
Les deux premiers composants principaux de la matrice Jaccard, codés par couleur par le clade de chaque séquence (clade G en rouge, GH en bleu, GK en violet, GR en orange, GRA en vert, GRY en noir, GV en jaune, L en marron , O en vert clair, S en turquoise, V en marron). Les 10013 séquences de GISAID sont affichées, un point par séquence. Les échantillons d’omicron sont représentés par des triangles.
En utilisant le programme d’alignement de séquences multiples MAFFT, toutes les séquences ont été alignées sur la référence officielle SARS-CoV-2 publiée sur GISAID. Tous les autres paramètres ont été réglés sur les valeurs par défaut pour établir une fenêtre bien définie pour la comparaison de 29 891 paires de bases.
L’analyse de l’étude a montré que les séquences nucléotidiques du SRAS-CoV-2 s’étendaient de manière distincte à partir de l’origine (0,0) sur la matrice Jaccard et formaient de nombreux groupes distincts en fonction de leur origine géographique. Les clusters génomiques d’Afrique ont été identifiés dans le quadrant supérieur gauche de la parcelle, tandis que ceux d’Europe ont été trouvés dans le quadrant inférieur gauche. Notamment, les séquences génomiques d’Omicron étaient quelque peu éloignées du cluster européen et plus proches de l’origine.
Conclusion
L’étude relate l’émergence de nouveaux cas de COVID-19 dus à la variante Omicron à l’aide d’une PCA non paramétrique sur des séquences nucléotidiques simple brin des séquences génomiques du SRAS-CoV-2 collectées à partir de la base de données GISAID accessible au public au cours des deux dernières années de la pandémie. L’étude a démontré que les nouvelles séquences génomiques d’Omicron étaient étroitement liées aux séquences soumises au GISAID dans les premiers mois de la pandémie, vers janvier 2020.
De plus, ces séquences Omicron dans GISAID sont réparties sur toute la gamme du premier composant principal et ne se sont pas groupées. Cela soutient l’hypothèse selon laquelle la variante Omicron est en circulation depuis un certain temps et est responsable d’infections à long terme par le SRAS-CoV-2.
Les résultats de l’étude ont également établi que l’analyse de cluster non supervisée est un excellent outil pour la surveillance continue des données à partir de bases de données publiques telles que GISAID en raison de sa simplicité et de sa vitesse de calcul. Cet outil s’est également avéré essentiel pour classer toutes les variantes émergentes du SRAS-CoV-2 d’intérêt pour des analyses de suivi plus poussées.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, orienter la pratique clinique/le comportement lié à la santé, ou traités comme des informations établies.