Dans un article récent publié dans Rapports scientifiques, les chercheurs ont exploré l’applicabilité des approches d’apprentissage automatique (ML) et l’utilisation de traces numériques provenant des médias sociaux pour développer et tester un indicateur d’alerte précoce et un modèle de prévision des tendances pour les situations pandémiques en Allemagne.
Étude: Développement d’un modèle d’alerte précoce pour les situations de pandémie en Allemagne. Crédit d’image : Corona Borealis Studio/Shutterstock.com
Sommaire
Arrière-plan
Début 2020, lorsque la première épidémie de coronavirus du syndrome respiratoire aigu sévère de type 2 (SRAS-CoV-2) s’est produite en Chine, les systèmes de santé de plusieurs pays n’étaient pas prêts à gérer la pandémie qui a suivi.
Des mesures retardées pour empêcher sa propagation n’ont pas été prises ou ont été prises trop tard en raison de l’absence d’un système d’alerte précoce (EWS), ce qui a entraîné trois millions de cas positifs de maladie à coronavirus 2019 (COVID-19) dans le monde. La pandémie sans précédent de COVID-19 a souligné la nécessité urgente d’améliorer la préparation des systèmes de santé mondiaux.
En réponse à cela, l’AIOLOS (Artificial Intelligence Tools for Outbreak Detection and Response), une collaboration franco-allemande, a testé plusieurs approches de modélisation de ML pour soutenir le développement d’un SAP utilisant les données de Google Trends et de Twitter sur les symptômes du COVID-19 pour prévoir l’évolution de la situation. les tendances des données de surveillance conventionnelles, telles que les rapports des établissements de santé ou des agences de santé publique.
Le défi de ces systèmes réside dans le manque de données entièrement automatisées et numériques enregistrées en temps réel pour une analyse et des contre-mesures rapides en cas de pandémie.
À propos de l’étude
Ainsi, dans la présente étude, les chercheurs ont utilisé les données des médias sociaux, en particulier celles de Google Trends et de Twitter, comme source d’informations associées au COVID-19, où l’information se propage plus rapidement que les canaux traditionnels (par exemple les journaux).
Ils ont utilisé l’ontologie, l’exploration de texte et l’analyse statistique pour créer un corpus de symptômes du COVID-19. Ensuite, ils ont utilisé un modèle de régression log-linéaire pour examiner la relation entre les traces numériques et les données de surveillance et ont développé des modèles Random Forest et LSTM de prévision des tendances pandémiques.
Ils ont défini les taux de vrais positifs (TPR), de faux positifs (FPR) et de faux négatifs (FNR) des tendances à la hausse des données de surveillance en accord avec une étude précédente de Kogan et al., qui ont utilisé une Modèle bayésien pour anticiper les tendances à la hausse des infections au COVID-19 aux États-Unis d’Amérique (USA) une semaine à l’avance.
Pour évaluer la décomposition des tendances, les chercheurs ont utilisé la décomposition saisonnière et de tendance en utilisant la méthode Loess (STL), où la fonction « prévision STL » leur a permis d’étendre les données de séries chronologiques d’un intervalle donné à un point temporel futur.
L’application de cela aux données de formation, qui couvraient une période spécifique, a permis d’extrapoler les données pour prédire la composante tendance pour une période future. Ils se sont concentrés sur les 20 principaux symptômes et ont effectué la décomposition STL sur les données extrapolées pour chaque symptôme.
En outre, ils ont utilisé une analyse de corrélation pour comparer la tendance extrapolée avec la composante de tendance extraite de l’ensemble des données.
En outre, les chercheurs ont examiné s’il y avait une augmentation de la fréquence de certains symptômes du COVID-19 dans des sources numériques telles que Google Trends et Twitter avant des augmentations similaires dans les données de surveillance établies.
À cette fin, ils ont examiné 168 symptômes de Google Trends et 204 de Twitter et ont calculé leur sensibilité, leur précision et leurs scores F1 respectifs.
La sensibilité mesure la proportion de vrais positifs, la précision mesure la proportion de vrais positifs parmi toutes les prédictions positives, et le score F1 est une mesure combinée de sensibilité et de précision.
Les chercheurs ont utilisé le test hypergéométrique pour identifier les 20 termes les plus significatifs liés à la maladie sur Google Trends et Twitter entre février 2020 et février 2022.
De cette manière, ils ont vérifié si la combinaison de plusieurs symptômes à l’aide de la méthode de la valeur P moyenne harmonique (HMP) pouvait améliorer la précision de détection des augmentations des données de surveillance des maladies.
En outre, les chercheurs ont utilisé une approche à fenêtre glissante impliquant l’analyse des données dans un laps de temps spécifique pour créer un classificateur ML afin de prédire les tendances futures des cas confirmés de COVID-19 et des hospitalisations.
Ils ont fixé l’horizon de prévision à 14 jours. Ils ont utilisé un schéma de validation croisée de séries chronologiques de neuf volets pour régler les hyperparamètres des modèles Random Forest et LSTM pendant la procédure de formation.
Enfin, l’équipe a utilisé la méthode Shapley Additive Explanations (SHAP) pour comprendre l’influence des termes de recherche Google et Twitter individuels sur les prédictions de tendances haussières du LSTM. L’analyse impliquait le calcul des valeurs SHAP absolues moyennes pour différents symptômes prédictifs.
Ils ont créé des diagrammes à barres dans lesquels les symptômes sont classés par ordre décroissant de leurs valeurs SHAP absolues moyennes.
Les symptômes avec des valeurs SHAP plus élevées ont été considérés comme plus influents dans la prévision des tendances à la hausse des cas confirmés de COVID-19 et des hospitalisations. Les exemples sont l’hypoxémie, les maux de tête, les douleurs musculaires, la toux sèche et les nausées.
Résultats
Les chercheurs ont identifié 162 symptômes liés au COVID-19 et leurs 249 synonymes. Tous les symptômes avec des valeurs P ajustées inférieures à un niveau de signification de 5 % ont été considérés comme significatifs dans l’analyse statistique.
Ils ont classé les termes liés aux symptômes en fonction de la fréquence de leur apparition, ce qui a conduit aux cinq premiers termes liés aux symptômes dans la littérature relative au COVID-19.
Il s’agissait de « pneumonie », « fièvre, pyrexie », « toux », « inflammation » et « essoufflement, dyspnée, difficultés respiratoires, difficultés respiratoires, essoufflement, respiration difficile ». De plus, les 20 principaux symptômes représentent 61,4 % du total des cooccurrences de tous les symptômes identifiés.
Les chercheurs ont découvert que l’algorithme de décomposition STL était robuste et présentait des corrélations élevées, presque égales à un.
Les scores F1 élevés pour les symptômes, le nez bouché, les douleurs articulaires, les malaises, l’écoulement nasal et les éruptions cutanées indiquent leur forte corrélation avec l’augmentation des cas confirmés. Les symptômes avec de faibles scores F1 étaient une défaillance multiviscérale, des frottements et des vomissements. Certains symptômes, tels que le délire, la léthargie et une mauvaise alimentation, indiquent la gravité de la COVID-19, notamment des hospitalisations et des décès.
Étant donné que différents symptômes présentaient des scores F1 élevés dans Google Trends et Twitter, il devient important de prendre en compte plusieurs sources numériques lors de l’analyse des tendances au niveau des symptômes.
Dans l’ensemble, certains symptômes observés dans les traces numériques peuvent servir d’indicateurs d’alerte précoce pour le COVID-19 et détecter l’apparition de pandémies avant les données de surveillance classiques.
Les chercheurs ont découvert que Google Trends avait un score F1 de 0,5, tandis que Twitter avait un score F1 de 0,47 lors du suivi des cas confirmés. Ceux-ci étaient inférieurs pour les hospitalisations et les décès, ~0,38 ou même inférieurs.
Ils ont noté que les traces numériques n’étaient pas fiables pour prédire les décès, mais que leur combinaison était un moyen prometteur de détecter les cas incidents et les hospitalisations.
Le modèle LSTM, utilisant la combinaison de Google Trends et Twitter, a montré de meilleures performances de prédiction, atteignant un score F1 de 0,98 et 0,97 pour la prévision à la hausse des cas confirmés de COVID-19 et des hospitalisations, respectivement, en Allemagne, avec un horizon de prévision plus large. de 14 jours. Il prédit également des tendances à la baisse, avec des scores F1 de 0,91 et 0,96 respectivement pour les cas confirmés et les hospitalisations.
Conclusion
Des modèles d’indicateurs d’alerte précoce et de prévision des tendances pour le COVID-19 ont déjà été développés dans d’autres pays. Cependant, étant donné que les contextes socio-économiques et culturels de chaque pays varient, les chercheurs ont développé un SAP spécifique à l’Allemagne.
L’étude a démontré que la combinaison des données de Google Trends et de Twitter permettait de prévoir avec précision les tendances du COVID-19 deux semaines (14 jours) avant les systèmes de surveillance standards.
À l’avenir, un suivi systématique similaire des traces numériques pourrait compléter l’évaluation des données de surveillance, l’exploration de données et de textes d’articles de presse afin de réagir rapidement aux futures situations de pandémie qui pourraient survenir en Allemagne.