Dans une étude récente publiée dans PLOS ONEdes chercheurs ont analysé la désinformation sur la maladie à coronavirus 2019 (COVID-19) sur Twitter.
Arrière plan
L’utilisation généralisée des médias sociaux pendant la pandémie de COVID-19 a entraîné une « infodémie » de désinformation et de mésinformation concernant le COVID-19, entraînant des conséquences potentiellement mortelles. Comprendre l’ampleur et l’impact de ces fausses informations est essentiel pour que les agences de santé publique puissent estimer le comportement de la population générale en ce qui concerne la vaccination et les interventions non pharmaceutiques (NPI) comme la distanciation sociale et le masquage.
À propos de l’étude
Dans la présente étude, les chercheurs ont évalué les tweets circulant sur Twitter contenant les hashtags #Plandemic et #Scamdemic.
Le 3 janvier 2021, l’équipe a utilisé Twint, un outil de scraping Twitter, pour collecter des tweets en anglais contenant les hashtags #Plandemic ou #Scamdemic publiés entre le 1er janvier et le 31 décembre 2020. Le 15 janvier 2021, l’équipe a ensuite utilisé l’application Twitter logiciel de programmation (API) pour obtenir les mêmes tweets en utilisant les identités de tweet correspondantes. L’équipe a fourni des statistiques descriptives pour les tweets sélectionnés, telles que le contenu corrélé du tweet et des profils d’utilisateurs, afin de déterminer la disponibilité des tweets dans les deux ensembles de données développés selon les codes d’état de l’API Twitter.
L’analyse des sentiments des tweets a été effectuée en symbolisant les tweets et en les nettoyant. Les jetons ont ensuite été transformés en leur forme racine à l’aide de techniques de traitement du langage naturel, notamment la lemmatisation, la radicalisation et la suppression des mots vides. La bibliothèque VADER de Python a été utilisée pour reconnaître et catégoriser le sentiment du tweet comme neutre, positif ou négatif et la subjectivité du tweet comme subjective ou objective. VADER a appliqué une analyse des sentiments basée sur des règles avec une échelle de polarité comprise entre -1 et 1.
L’analyse subjective a été effectuée à l’aide de TextBlob, qui a étiqueté chaque tweet sur une échelle de zéro ou objectif à un ou subjectif. Les tweets objectifs étaient considérés comme fournissant des faits, tandis que les tweets subjectifs communiquaient une opinion ou une croyance. L’équipe a visualisé un histogramme des scores de subjectivité pour les hashtags #Plandemic et #Scamdemic. La bibliothèque Python a également été utilisée pour étiqueter l’émotion principale associée à chaque tweet comme peur, anticipation, colère, surprise, confiance, tristesse, joie, dégoût, positif ou négatif.
Les sujets prédominants abordés dans la bibliothèque de tweets ont été reconnus et un algorithme d’apprentissage automatique a été appliqué. Cet algorithme a identifié les grappes de tweets à l’aide d’un groupe représentatif de mots. Les mots avec les poids les plus élevés dans chaque groupe ont été utilisés pour définir le contenu de chaque sujet.
Résultats
Les résultats de l’étude ont montré qu’un total de 420 107 tweets comprenaient les hashtags #Plandemic et #Scamdemic. L’équipe a supprimé les tweets qui étaient des retweets, des réponses, des non-anglais ou des doublons pour conserver 227 067 tweets d’environ 40 081 utilisateurs. Près de 74,4 % du total des tweets ont été publiés par 78,4 % des utilisateurs actifs de Twitter, tandis que 25,6 % des tweets ont été publiés par 21,6 % des utilisateurs dont le compte a été suspendu au 15 janvier 2021. L’équipe a noté que les utilisateurs avec des profils suspendus étaient probablement tweeter davantage. Les utilisateurs qui ont utilisé les deux hashtags avaient 29,2 % de chances d’être suspendus contre 25,9 % pour les tweets utilisant #Plandemic et 13,2 % pour les tweets utilisant #Scamdemic.
L’équipe a constaté que la plupart des utilisateurs étaient âgés de 40 ans et plus. De plus, les utilisateurs suspendus comprenaient principalement des hommes et des utilisateurs âgés de 18 ans et moins et de 30 à 39 ans. Près de 88 % des utilisateurs actifs et 79 % des utilisateurs suspendus ont tweeté à partir de leurs comptes personnels. Notamment, l’objectivité a été affichée par près de 65% des tweets analysés.
L’analyse des émotions des tweets a révélé que la peur était l’émotion prédominante, suivie de la tristesse, de la confiance et de la colère. Les émotions telles que la surprise, le dégoût et la joie étaient les moins exprimées, tandis que les tweets suspendus étaient plus susceptibles d’afficher du dégoût, de la surprise et de la colère.
Le sentiment général exprimé par les tweets contenant les hashtags #Plandemic et #Scamdemic était négatif. Les sentiments hebdomadaires moyens globaux étaient de -0,05 pour #Plandemic et de -0,09 pour #Scamdemic, où 1 et -1 dénotaient respectivement des sentiments complètement positifs et négatifs.
Le sujet de tweet le plus fréquemment observé était les « plaintes contre les mandats introduits pendant la pandémie de COVID-19 », qui comprenaient également des plaintes contre les masques faciaux, les fermetures et la distanciation sociale. Cela a été suivi de tweets avec des sujets « minimisant les dangers du COVID-19 », « mensonges et lavage de cerveau par les politiciens et les médias », et « les entreprises et l’agenda mondial ».
Dans l’ensemble, les résultats de l’étude ont montré que les tweets liés au COVID-19 affichaient un sentiment globalement négatif. Alors que plusieurs tweets exprimaient leur colère contre les restrictions pendant la pandémie, une proportion importante de tweets présentaient également de la désinformation.