Des chercheurs de l’Université de São Paulo (USP) au Brésil utilisent l’intelligence artificielle (IA) et Twitter, l’une des plus grandes plateformes de médias sociaux au monde, pour tenter de créer des modèles de prédiction de l’anxiété et de la dépression qui pourraient à l’avenir fournir des signes de ces troubles avant diagnostic clinique.
L’étude est rapportée dans un article publié dans la revue Ressources linguistiques et évaluation.
La construction d’une base de données, appelée SetembroBR, a été la première étape de l’étude. Le nom fait référence à Yellow September, une campagne annuelle de sensibilisation et de prévention du suicide, ainsi qu’au fait que la collecte de données pour l’étude a commencé un jour de septembre.
La deuxième étape est toujours en cours mais a fourni quelques éléments préliminaires, comme la possibilité de détecter si une personne est susceptible de développer une dépression uniquement sur la base de ses amis et followers sur les réseaux sociaux, sans tenir compte de ses propres publications.
La base de données compilée par le groupe contient des informations relatives à un corpus de textes (en portugais) et au réseau de connexions impliquant 3 900 utilisateurs de Twitter qui ont déclaré avoir été diagnostiqués ou traités pour des problèmes de santé mentale avant l’enquête. Le corpus comprend tous les tweets publics postés par ces utilisateurs individuellement (sans les retweets), pour un total d’environ 47 millions de ces textes courts.
Tout d’abord, nous avons collecté manuellement les chronologies, en analysant les tweets de quelque 19 000 utilisateurs, soit l’équivalent de la population d’un village ou d’une petite ville. Nous avons ensuite utilisé deux ensembles de données, un pour les utilisateurs qui ont déclaré avoir reçu un diagnostic de problème de santé mentale et un autre sélectionné au hasard à des fins de contrôle. Nous voulions faire la distinction entre les personnes souffrant de dépression et la population générale. »
Ivandre Paraboni, dernier auteur de l’article et professeur à l’USP’s School of Arts, Sciences and Humanities (EACH)
L’étude a également recueilli des tweets d’amis et de followers, conformément au constat que les personnes ayant des problèmes de santé mentale ont tendance à suivre certains comptes, tels que les forums de discussion, les influenceurs et les célébrités qui reconnaissent publiquement leur dépression. « Ces personnes sont attirées les unes vers les autres. Elles ont des intérêts communs », a déclaré Paraboni, chercheur au Centre d’intelligence artificielle (C4AI), un centre de recherche en ingénierie (ERC) créé par la FAPESP et IBM Brésil à l’USP.
La FAPESP a également soutenu l’étude du projet via le projet « Analyse du langage des médias sociaux pour la détection précoce des troubles de santé mentale », porté par Paraboni.
Les troubles de la santé mentale, y compris la dépression et l’anxiété, sont une préoccupation mondiale croissante. L’Organisation mondiale de la santé (OMS) a estimé sur la base des données de 2021 que 3,8 % de la population mondiale, soit quelque 280 millions de personnes, étaient touchées par la dépression.
L’OMS a également estimé une augmentation de 25% de la prévalence mondiale de ces problèmes de santé mentale pendant la pandémie de COVID-19. Les tweets ont été collectés pour l’étude durant cette période.
Dans une récente enquête du ministère brésilien de la Santé portant sur 784 000 participants, 11,3 % ont déclaré avoir reçu un diagnostic de dépression. La plupart étaient des femmes.
Selon des recherches antérieures, les problèmes de santé mentale sont souvent reflétés par le langage utilisé par les personnes atteintes. Cette découverte a conduit à un nombre considérable d’études impliquant le traitement du langage naturel (PNL), avec un accent sur la dépression, l’anxiété et le trouble bipolaire, entre autres. Cependant, la plupart de ces études analysent des textes en anglais et ne correspondent pas toujours au profil de la plupart des Brésiliens.
Des modèles
Les chercheurs ont prétraité le corpus pour supprimer les hashtags, les URL, les émoticônes et les caractères non standard tout en conservant les textes originaux. Ils ont ensuite déployé l’apprentissage en profondeur, une technique d’IA qui apprend aux ordinateurs à traiter les données d’une manière inspirée par le cerveau humain, pour créer quatre classificateurs de texte et des incorporations de mots (représentations mathématiques dépendantes du contexte des relations entre les mots) à l’aide de modèles basés sur des représentations d’encodeurs bidirectionnels. from transformers (BERT), un algorithme d’apprentissage automatique pour le NLP. Ces modèles correspondent à un réseau de neurones qui apprend des contextes et des significations en surveillant des relations de données séquentielles, telles que des mots dans une phrase.
L’entrée de formation consistait en un échantillon de 200 tweets sélectionnés au hasard parmi chaque utilisateur. Les paramètres ont été définis en exécutant cinq fois la validation croisée des données de formation et en calculant le résultat moyen.
La conclusion était que le BERT était le plus performant en termes de prédiction de la dépression et de l’anxiété, avec une différence statistiquement significative entre celui-ci et LogReg, la meilleure option suivante. Parce que les modèles analysaient des séquences de mots et des phrases complètes, il a été possible d’observer que les personnes souffrant de dépression, par exemple, avaient tendance à écrire sur des sujets liés à eux-mêmes, en utilisant des verbes et des phrases à la première personne, ainsi que des sujets tels que la mort, crise et psychologie.
« Les signes de dépression qui peuvent être détectés lors d’une visite chez le médecin ne sont pas nécessairement les mêmes que ceux qui apparaissent sur les réseaux sociaux », a déclaré Paraboni. « Par exemple, l’utilisation des pronoms à la première personne du singulier I et me était très évidente, et en psychologie, cela est considéré comme un signe classique de dépression. Nous avons également observé l’utilisation fréquente de l’emoji du cœur par les utilisateurs dépressifs. Cela est largement ressenti comme un symbole d’affection et d’amour, mais peut-être que les psychologues ne l’ont pas encore caractérisé comme tel. »
Tous les textes collectés ont été anonymisés. « Nous n’avons publié ni tweets réels ni noms d’utilisateurs. Nous avons veillé à ce que les étudiants impliqués dans le projet n’aient pas accès aux données des utilisateurs afin de protéger l’identité des personnes », a-t-il déclaré.
Les chercheurs étendent maintenant la base de données, affinent leurs techniques de calcul et améliorent les modèles afin de voir s’ils peuvent produire un outil pour une utilisation future dans le dépistage des personnes souffrant de problèmes de santé mentale et pour aider les familles et les amis des jeunes à risque de dépression et anxiété.
Le Brésil se classe au troisième rang des pays les plus consommateurs de médias sociaux au monde, selon une enquête Comscore publiée début mars, derrière l’Inde et l’Indonésie mais devant les États-Unis, le Mexique et l’Argentine. Ses 131,5 millions d’utilisateurs sont en ligne 46 heures par mois en moyenne. Les plateformes les plus utilisées sont YouTube, Facebook, Instagram, TikTok, Kwai et Twitter, qui a récemment modifié ses règles et commencé à facturer certains services.