Dans une récente étude publiée sur medRxiv* serveur de préimpression, les chercheurs ont examiné l’exactitude des modèles de prévision de la maladie à coronavirus 2019 (COVID-19) des Centers for Disease Control and Prevention (CDC) des États-Unis.
La modélisation prédictive précise des résultats de la pandémie joue un rôle essentiel dans l’élaboration de stratégies et de politiques visant à freiner l’étendue de la pandémie. Bien que plusieurs modèles de prédiction aient été envisagés, leur précision et leur robustesse dans le temps et les différents modèles ne sont pas claires.
Sommaire
À propos de l’étude
Dans la présente étude, les chercheurs ont analysé tous les modèles de prévision US CDC COVID-19 en les classant par type de modèle et en estimant leur pourcentage d’erreur moyen sur différentes vagues d’infection COVID-19.
L’équipe a comparé plusieurs modèles de prévision du CDC américain COVID-19 en fonction de leurs caractéristiques quantitatives en mesurant leurs performances sur différentes périodes. Le CDC américain compile les prévisions hebdomadaires liées aux cas de COVID-19 sur quatre périodes différentes, dont une semaine, deux semaines, trois semaines et quatre semaines. Les modèles font une nouvelle prévision chaque semaine pour les nouveaux cas de COVID-19 au cours de chacune des quatre semaines suivantes. L’horizon de prévision était considéré comme la période pour laquelle la prévision devait être préparée. La présente étude s’est concentrée sur l’évaluation de la performance des modèles de prévision sur quatre semaines.
Les modèles de prévision ont été différenciés en cinq catégories, à savoir ensemble, épidémiologiques, hybrides et apprentissage automatique. L’équipe a examiné un total de 51 modèles. Le modèle CDC utilise un modèle d’ensemble et les chercheurs ont évalué si ce modèle était plus précis que n’importe quel modèle individuel. Le pourcentage d’erreur absolu moyen (MAPE) a été évalué et rapporté pour chaque modèle étudié et les modèles ont été comparés en fonction de leur performance à chaque vague. L’équipe a défini les vagues comme (1) Vague I : du 6 juillet 2020 au 31 août 2020 ; (2) Vague II : 1er septembre 2020 au 14 février 2021 ; (3) Vague III : 15 février 2021 au 26 juillet 2021 ; et (4) Vague IV : 27 juillet 2021 au 17 janvier 2022.
La performance des modèles de prévision a été calculée selon deux lignes de base. Baseline-I était la « CovidHub-Baseline » (ou la ligne de base du CDC) qui évaluait l’incidence d’infection la plus récente comme prévision médiane des horizons futurs. Baseline-II a pris en compte l’extrapolation du prédicteur linéaire dans les cas actifs de COVID-19 signalés entre deux semaines avant la date de la prévision. L’équipe n’a considéré que les modèles qui avaient fait des prédictions pour un minimum de 25% des dates cibles étudiées.
Résultats
Les résultats de l’étude ont montré que lors de la première vague de la pandémie de COVID-19, les valeurs MAPE étaient de 14 % pour le Columbia_UNC-SurvCon, de 17 % pour le USACE-ERDC_SEIR et de 25 % pour les modèles CovidAnalytics-DELPHI. Parmi les quatre modèles qui ont obtenu de meilleurs résultats par rapport aux deux lignes de base, trois étaient des modèles épidémiologiques et un était un modèle hybride. L’équipe a également déduit que les modèles hybrides étaient plus performants que les autres et avaient le MAPE le plus bas, suivis des modèles épidémiologiques et ensuite des modèles d’apprentissage automatique. En revanche, les modèles d’ensemble avaient le MAPE le plus élevé dans la première vague alors qu’aucun des modèles n’a franchi le seuil du MAPE de la ligne de base-I.
Au cours de la deuxième vague COVID-19, le modèle IQVIA_ACOE-STAN a obtenu les meilleurs résultats avec un MAPE de 5,5 %. Au total, 13 modèles ont dépassé les deux niveaux de référence avec un MAPE compris entre 5 et 37. Les modèles les plus performants de cette vague comprenaient cinq modèles d’ensemble, quatre modèles épidémiologiques, deux modèles d’apprentissage automatique et deux modèles hybrides. Notamment, tous les modèles d’ensemble ont dépassé les performances de la première ligne de base avec un MAPE de 37 %, à l’exception du modèle UVA-Ensemble. De plus, une distribution stupéfiante des valeurs MAPE a été observée pour les modèles épidémiologiques. De plus, contrairement à la vague I, les modèles d’ensemble prédisaient les prévisions les plus précises de la vague II tandis que les modèles hybrides étaient les moins précis.
Lors de la vague III, la performance des modèles d’ensemble était comparable à la première vague. De plus, les modèles de référence ont rapporté un MAPE comparativement plus élevé, les valeurs de MAPE aux niveaux de référence I et II étant de 74 % et 77 %, respectivement. Dans cette vague, le modèle le plus performant était l’USC-SI_kJalpha qui avait un MAPE de 32 %. Au total, 32 modèles ont montré de meilleures performances que celles des modèles de base, dont 12 modèles de compartiments, trois modèles d’apprentissage automatique, quatre modèles hybrides, huit modèles d’ensemble et cinq modèles non catégorisés.
Lors de la quatrième vague de la pandémie, quelques modèles avaient un MAPE de 28 % tandis que le MAPE de référence était de 47 %. Alors que les modèles d’ensemble ont donné les meilleurs résultats au cours de cette période, les modèles épidémiologiques ont montré le MAPE le plus élevé. Les scores MAPE de base I et II étaient de 47 % et 48 %, respectivement.
Conclusion
Pour résumer, les résultats de l’étude ont montré qu’il n’y avait pas de différences significatives dans la précision des différents modèles de prévision du CDC COVID-19. De plus, le taux d’erreur dans les modèles a augmenté au fil du temps pendant la pandémie. Les chercheurs pensent que la présente étude peut servir de base au développement de modèles de prévision plus précis et plus robustes.
*Avis important
medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.