Dans une étude récente publiée dans PNAS Nexus, les chercheurs ont développé un modèle d’évaluation des risques utilisant l’apprentissage automatique pour prédire la future trajectoire de distribution des variantes nouvellement découvertes du coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) à l’aide de données génomiques et épidémiologiques.
Étude: Prédire la propagation des variantes du SRAS-CoV-2 : une détection précoce basée sur l’intelligence artificielle. Crédit d’image : Peter Kneiz/Shutterstock.com
Sommaire
Comment les nouvelles souches du SRAS-CoV-2 sont-elles identifiées ?
Les Centers for Disease Control and Prevention (CDC) des États-Unis et l’Organisation mondiale de la santé (OMS) surveillent l’émergence de nouvelles variantes du SRAS-CoV-2 pour éclairer la préparation à une pandémie. Cependant, identifier la faible proportion de mutations à l’origine d’une nouvelle vague reste difficile.
Les chercheurs universitaires ont développé divers modèles pour prévoir la trajectoire de la pandémie ; cependant, aucun de ces systèmes ne s’est concentré sur la diffusion de variantes spécifiques. Hormis la surveillance du développement génétique des souches mutantes du SRAS-CoV-2, les caractéristiques génétiques n’ont pas été incluses dans la modélisation épidémiologique actuelle pour refléter la trajectoire de l’infection.
À propos de l’étude
Dans la présente étude, les chercheurs ont utilisé une approche basée sur l’intelligence artificielle (IA) pour évaluer neuf millions de séquences génomiques du SRAS-CoV-2 dans 30 pays et révéler des modèles temporels de variantes produisant de grandes vagues d’infection. Le modèle a utilisé les données de la lignée Pango, de l’Initiative mondiale sur le partage des données sur la grippe aviaire (GISAID), des cas de maladie à coronavirus 2019 (COVID-19), des taux de vaccination et des interventions non pharmaceutiques.
L’analyse s’est concentrée sur 30 pays qui ont signalé le plus grand nombre de séquences génomiques du SRAS-CoV-2 en mars 2022. Ces 30 pays représentent neuf millions des 9,5 millions de séquences génomiques enregistrées dans GISAID depuis le début de la pandémie.
Au 19 mars 2022, 1 151 variants uniques avaient été systématiquement détectés dans les pays inclus, avec une médiane de 72 variants identifiés dans chaque pays depuis le début de la pandémie. La technique est conforme aux classifications des vagues du CDC et de l’OMS basées sur les variantes responsables des infections.
De multiples altérations des protéines du SRAS-CoV-2 par rapport à la souche de référence de type sauvage identifiée à Wuhan début janvier 2020 distinguaient chaque nouvelle variante. L’étude actuelle a pris en compte tous les changements imaginables dans une séquence génomique, tels que les substitutions, délétions et insertions de bases. L’approche a créé une nouvelle mesure de distance entre des variantes distinctes en combinant la métrique de distance Jaccard avec une liste de mutations spécifiques à une variante calculée en divisant le nombre de mutations uniques dans une variante par le nombre de mutations dans une autre variante du SRAS-CoV-2.
Les chercheurs ont également fourni deux mesures pour caractériser la diversité des variantes au fil du temps, notamment l’entropie et l’hétérogénéité des variantes. L’entropie des variantes a été motivée par l’application du concept thermodynamique d’entropie dans les systèmes écologiques pour comparer les états d’entropie faible et élevée, ce qui est en corrélation avec le nombre de variantes cocirculantes.
Le modèle visait à détecter les variantes du SRAS-CoV-2 qui ont produit plus de 1 000 cas pour un million d’individus dans les trois mois suivant leur détection. De plus, 31 facteurs prédictifs ont été incorporés dans le modèle qui capture les caractéristiques génomiques des nouvelles variantes, leur trajectoire de distribution précoce et les initiatives non pharmaceutiques et vaccinales mises en œuvre pendant la période de transmission des variantes. Ces caractéristiques ont été utilisées pour estimer le pouvoir infectieux des variantes à l’aide de l’apprentissage automatique.
Résultats de l’étude
Des scores de risque ont été attribués à toutes les variantes du SRAS-CoV-2 et convertis en prédictions binaires dans des ensembles de données de formation afin d’optimiser la spécificité et la sensibilité du modèle. Après une semaine d’observation, le modèle peut détecter 73 % des variantes qui déclencheraient une vague de COVID-19 de plus de 1 000 infections au cours des trois mois suivants. Avec une période d’observation de deux semaines, cette performance s’élève à 80 %.
Les valeurs de l’aire sous la courbe (AUC) hors échantillon pour le modèle étaient de 86 % pour les prévisions sur une semaine et de 91 % pour les prévisions sur deux semaines. Les trois principales variantes dominantes étaient généralement responsables de la plupart des cas au cours de la vague concernée et représentaient une part totale de 71 % sur toutes les vagues.
Les protéines Spike, nucléocapside (N) et protéines non structurelles (NSP) présentaient le plus de mutations, avec des nombres médians par variante dans chaque pays de 10, trois et 14, respectivement. Avec une distance médiane entre les vagues de 0,9, la variante dominante initiale dans chaque vague contenait des mutations très uniques par rapport aux variantes circulant dans la vague précédente.
Les vagues ont été divisées en trois groupes, dont Avant-1 et Avant-2, qui se sont terminés avant le début de la campagne nationale de vaccination ; la transition, qui a commencé avant la campagne de vaccination mais s’est terminée après ; et After-1 et After-2, qui ont commencé après la campagne. Les valeurs d’entropie des vagues ont augmenté d’une petite quantité statistiquement significative entre les vagues Avant-2 et Avant-1, mais sont restées comparables entre les vagues Avant-1 et les vagues de Transition, avec une médiane de 0,5.
La plupart des variantes, y compris celles ayant le pouvoir infectieux le plus élevé, continuent de provoquer des infections dans les deux semaines suivant leur identification, avec une valeur médiane de 2,5 cas de COVID-19 pour un million d’individus. En outre, les variantes provoquant une étendue similaire d’infections en deux semaines peuvent avoir une trajectoire de transmission significativement différente après trois mois.
Conclusions
Les découvertes d’étude mettent en valeur le développement d’un modèle de prédiction basé sur neuf millions de séquences génétiques provenant de 30 pays pour anticiper l’émergence de nouvelles variantes du SRAS-CoV-2. Avec des valeurs d’AUC de 86 % et 91 %, le modèle a détecté des variantes infectieuses dès une semaine et deux semaines après leur détection, respectivement.
Ces observations indiquent que de nouveaux variants acquièrent des mutations pour réinfecter ou cibler de nouveaux sous-ensembles de population d’individus auparavant immunisés. Les précisions de prédiction améliorées des modèles standards soulignent la nécessité d’intégrer des variables génétiques dans des modèles plus sensibles.