Dans une récente étude publiée sur bioRxiv* serveur de préimpression, les chercheurs ont prédit les séquences nucléotidiques du coronavirus 2 (SARS-CoV-2) du syndrome respiratoire aigu sévère en utilisant la détection des valeurs aberrantes.
L’émergence de nouvelles variantes du SRAS-CoV-2 a soulevé des inquiétudes concernant les vaccins actuellement administrés contre la maladie à coronavirus 2019 (COVID-19). Par conséquent, l’identification et le séquençage des nouvelles variantes émergentes nécessitent une attention opportune.
Sommaire
À propos de l’étude
Dans la présente étude, les chercheurs ont appliqué la détection des valeurs aberrantes à différentes séquences de nucléotides du SRAS-CoV-2 avant et après l’émergence d’une nouvelle variante.
L’équipe a collecté un total de 2 11 167 séquences de nucléotides du SRAS-CoV-2. Les séquences sélectionnées satisfont aux critères suivants : (1) être complètes avec une longueur d’au moins 29 000 pb ; (2) des données de collecte complètes avec des séquences ayant une date de collecte année-mois-jour complète ; (3) couverture élevée dans les séquences ayant moins de 1 % de bases N ; (4) avec l’état du patient ayant des métadonnées comprenant l’âge, le sexe et l’état clinique du patient ; et (5) faible couverture exclue avec des séquences ayant plus de 5 % de bases N exclues. Ils ont également collecté l’horodatage de toutes les séquences de nucléotides.
L’équipe a étudié la possibilité de détecter la séquence d’une nouvelle variante du SARS-CoV-2 parmi les huit variantes du SARS-CoV-2, à savoir SARS-CoV-2 Alpha (B.1.1.7), Beta (B.1.351) , Delta (B.1.617.2), Gamma (P.1), GH (B.1.640), Lambda (C.37), Mu (B.1.621) et Omicron (B.1.1.529).
Deux ensembles de données de référence ont été générés pour chaque variante afin de déterminer le point temporel T1 à laquelle les séquences de chaque variante ont émergé sur l’initiative mondiale sur le partage de toutes les données sur la grippe (GISAID). Le premier jeu de données de référence a été produit en utilisant les séquences GISAID ayant un horodatage avant T1. Le deuxième ensemble de données a ensuite représenté l’émergence d’une nouvelle variante pour laquelle l’horodatage T2 a été déterminée dans laquelle 10 % des séquences variantes étaient mentionnées dans le GISAID. Le deuxième ensemble de données de référence a été généré en utilisant les séquences ayant un horodatage allant jusqu’à T2.
L’équipe a utilisé un outil d’alignement appelé alignement multiple utilisant la transformée de Fourier rapide (MAFFT) et la séquence de référence du SRAS-CoV-2 pour aligner les séquences sur le génome de référence. Toutes les séquences ont ensuite été converties en une séquence de Hamming binaire afin de comparer le génome viral de référence à chacune des séquences nucléotidiques alignées. L’équipe a également utilisé la mesure de similarité de Jaccard pour explorer la similarité de toutes les séquences.
La détection des valeurs aberrantes a été effectuée en définissant un environnement local autour de chaque séquence présente dans un graphique de composante principale. L’horodatage de la séquence testée a ensuite été comparé à la distribution de cet horodatage dans l’environnement local défini.
Résultats
Les résultats de l’étude ont montré que les génomes viraux du GISAID affichaient un schéma de progression spécifique avec les séquences les plus anciennes se regroupant au milieu du lot de la matrice Jaccard et les nouvelles séquences dans la partie inférieure de la parcelle. Le schéma de progression a commencé du premier nuage de points aux génomes viraux ayant des horodatages intermédiaires vers des échantillons plus récents. L’équipe a également noté que les génomes de la souche SARS-CoV-2 Omicron étaient les plus comparables à ceux trouvés aux premiers stades de la pandémie.
L’étalonnage de la détection des valeurs aberrantes pour s’aligner sur les séquences Omicron a montré un tracé de coude bidimensionnel avec le nombre de valeurs aberrantes en fonction de l’environnement local et un facteur f qui définissait le nombre d’écarts types nécessaires pour déterminer qu’une séquence est une valeur aberrante. Les chercheurs ont observé une forme distincte formée par le modèle de réduction du nombre de valeurs aberrantes à mesure que le facteur f augmentait ; cependant, une forte baisse a été observée à f = 1,2. Cela a mis en évidence que f = 1,2 était un choix cohérent pour toutes les variantes.
La détection locale des valeurs aberrantes a montré que les valeurs aberrantes étaient présentes dans un environnement epsilon local avec 19 génomes Omicron sur 25 détectés. L’équipe a également noté que si de nombreuses séquences détectées dans cet étalonnage n’étaient pas liées à Omicron, elles appartenaient à la variante SARS-CoV-2 Delta. De plus, pour les variantes SARS-CoV-2 Delta, Beta, GH et Omicron, le nombre de valeurs aberrantes détectées a considérablement augmenté après l’émergence de cette variante. En revanche, lorsque d’autres variantes étaient considérées, la différence dans le nombre de valeurs aberrantes était moins importante. Notamment, pour la variante SARS-CoV-2 Gamma, le nombre de valeurs aberrantes détectées a diminué après l’émergence de la variante Gamma.
Conclusion
Dans l’ensemble, les résultats de l’étude ont montré que la détection des valeurs aberrantes pourrait servir d’outil important pour reconnaître les nouvelles variantes émergentes du SRAS-CoV-2 à l’aide de techniques d’apprentissage automatique ainsi que de méthodes statistiques.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.