Dans une étude récente publiée dans PLOS ONEles chercheurs ont développé une approche intégrée combinant le séquençage de nouvelle génération (NGS), le codage à barres moléculaire, l’apprentissage automatique et la bioinformatique pour permettre la détection à haut débit des variantes du coronavirus 2 du syndrome respiratoire aigu sévère (SARS-CoV-2).
Arrière plan
Les substitutions (mutations) d’acides aminés du SRAS-CoV-2 donnent lieu à différentes variantes avec une virulence et/ou une résistance accrues aux vaccins contre la maladie à coronavirus 2019 (COVID-19). La réaction en chaîne de transcription inverse-polymérase (RT-PCR) a été l’étalon-or pour la détection moléculaire; cependant, la méthode ne permet pas l’identification des variations de séquence dans des emplacements génomiques spécifiques.
L’identification des infections par le SRAS-CoV-2 et des variants nucléotidiques uniques (SNV) nécessite la modification des techniques de diagnostic existantes pour cartographier les mutations du SRAS-CoV-2 de manière rapide, fiable, en temps réel et rentable. NGS permet l’analyse des variantes et le suivi de la lignée ; cependant, il n’a pas encore été considéré comme une méthode standard pour le dépistage de masse. L’intégration de la PCR et du NGS offre plusieurs avantages tels que des tests à grande échelle, un coût moindre, une quantité inférieure de réactifs nécessaires et la lecture des variations de séquence du SARS-CoV-2.
À propos de l’étude
Dans la présente étude, les chercheurs ont détecté des variantes du SRAS-CoV-2 à l’aide d’un protocole basé sur l’intégration de la PCR multiplexée, du codage à barres de l’acide désoxyribonucléique (ADN), de la mise en commun des échantillons, du NGS, de l’apprentissage automatique et de l’analyse bioinformatique à une seule résolution de nucléotide. Alors que la PCR permet la détection du SARS-CoV-2, la NGS permet la détection des variations de séquence, l’apprentissage automatique améliore la sensibilité et la spécificité de la technique, et la bioinformatique permet l’analyse des données.
Des écouvillons oropharyngés et nasopharyngés ont été obtenus des patients (n = 960 échantillons), à partir desquels l’ARN a été extrait et soumis à une analyse RT-PCR, et l’ADN complémentaire amplifié (ADNc) du SRAS-CoV-2 avec> 1 SNV dans la séquence lit ont été générés. Par la suite, des analyses de code-barres d’ADN, de regroupement d’échantillons, de préparation de bibliothèques, de séquençage d’amplicon basé sur NGS et d’apprentissage automatique ont été effectuées.
La méthode a permis de regrouper des échantillons à code-barres individuellement dans un puits et d’amplifier plusieurs fragments en parallèle pour traiter simultanément des milliers d’échantillons. Un total de 2133 bandes de 21 000 codes à barres avec 10 bases azotées et 12 bases azotées, respectivement, ont été générés ; cependant, seuls 96 codes-barres distincts ont été sélectionnés pour l’analyse, et les lectures virales ont été comptées pour chaque code-barres.
Pour le codage à barres, des codes à barres spécifiques au patient ont été générés à une distance de plus de 3 séquences de Levenshtein et ajoutés aux amorces d’ADN. Les cibles d’amorce pour l’analyse étaient les gènes de la nucléocapside 1 (N1), N2, de l’enveloppe (E) et du cadre de lecture ouvert 1 (ORF1) du SRAS-CoV-2. De plus, le gène de la ribonucléase P endogène humaine (RNaseP) a été utilisé comme contrôle interne.
Dans l’analyse, 10 bibliothèques génétiques ont été préparées et séquencées pour identifier le SRAS-CoV-2 et ses variants dans les échantillons, ainsi que les variations de séquence. Les séquences ont été lues à l’aide du système Illumina NGS pour identifier les échantillons positifs au SARS-CoV-2 et leurs variations de séquence.
Résultats
Trois fragments viraux ont été séquencés pour la détection du SARS-CoV-2, et sept variants SARS-CoV-2 à un seul nucléotide ont été détectés après séquençage basé sur NGS. Les mutations observées ont été comparées aux bases de données du SRAS-CoV-2 à l’aide de l’outil de recherche d’alignement local de base des nucléotides (BLASTn) GenBank, après quoi six variantes connues du SRAS-CoV-2 et une nouvelle variante ont été identifiées lors du dépistage de 960 échantillons, dont 27 % (n = 258) étaient positifs pour le SRAS-CoV-2.
Sur 258 échantillons positifs pour le SRAS-CoV-2, 30 contenaient une mutation faux-sens commune du gène N, tandis que six échantillons contenaient également une substitution dans ORF1a. Le nombre de lectures virales dans le pool d’échantillons était négativement corrélé avec les nombres de seuil de cycle (Ct) de l’analyse PCR.
Le protocole a démontré une précision de 93,3 %, une précision de 91,7 %, une sensibilité de 82,5 % et une spécificité de 97,3 %, et en considérant les échantillons positifs comme ceux avec Ct<30 (pour le gène N), la sensibilité et la spécificité ont augmenté à 100 % et 98,5 % , respectivement, avec une valeur prédictive positive (VPP) de 94,7 %. Les résultats ont indiqué que le protocole de diagnostic pouvait détecter avec précision le SRAS-CoV-2 et ses variantes.
Cependant, le multiplexage du gène N1 et du gène N2 ensemble a conduit à la génération d’un fragment d’ADN non spécifique de 944 paires de bases (pb) puisque les deux amplicons correspondants étaient situés à proximité l’un de l’autre. Le fragment formé d’une longueur de 944 pb était un produit allongé comprenant l’amorce sens et l’amorce antisens du gène N1 et du gène N2, respectivement. Étant donné que le fragment a été ajouté lors de la préparation de la bibliothèque de bibliothèques génétiques et a fonctionné simultanément avec tous les amplicons, il pourrait donner lieu à une analyse NGS compétitive et à un nombre moindre de lectures à partir de fragments d’ADN en cours d’analyse.
Dans l’ensemble, les résultats de l’étude ont montré que l’intégration d’essais PCR multiplexés, de codes-barres ADN, de regroupement d’échantillons, de NGS, d’apprentissage automatique et de bioinformatique pourrait être une solution de diagnostic efficace pour un dépistage de masse à haut débit et précis pour la détection des variantes et des variations de séquence du SRAS-CoV-2 .