La santé implique le bien-être des domaines physique, émotionnel, mental et intellectuel de l’homme. Ceux-ci sont profondément influencés par des facteurs sociaux, souvent appelés déterminants sociaux de la santé (SDoH). Cependant, ceux-ci ne sont pas documentés de manière claire ou adéquate dans les dossiers de santé électroniques (DSE).
Une nouvelle étude dans npj Médecine Numérique explore l’utilisation de grands modèles de langage (LLM) pour obtenir des données vitales à partir des DSE afin d’améliorer les résultats de la recherche et d’offrir de meilleurs soins cliniques.
Arrière-plan
L’importance des SDoH réside dans leur capacité documentée à contribuer aux disparités en matière de santé. Ils dépendent de la capacité de l’individu à dépenser et à accéder à des modes de vie favorables à la santé et à des installations médicales de haute qualité en termes de richesse, de pouvoir et de ressources. Outre cet impact direct, les SDoH indésirables contribuent indirectement aux altérations neuronales et endocriniennes et à une inflammation de faible niveau pouvant entraîner des problèmes de santé physique et mentale.
« On estime que les SDoH représentent 80 à 90 % des facteurs modifiables ayant un impact sur les résultats de santé.»
Malgré cette place cruciale, ils sont rarement capturés de manière systématique ou globale dans les DSE et restent donc sans intervention. Il est nécessaire de déplacer la documentation de ces facteurs du texte libre des notes cliniques vers le format structuré des DSE pour sélectionner les patients qui pourraient être aidés par le travail social ou en fournissant les ressources nécessaires.
Les avancées informatiques telles que le traitement du langage naturel (NLP) peuvent aider à transférer ce texte libre vers des données formatées pour la recherche clinique, mais les performances de ces outils restent non mesurées.
De plus, le développement de grands modèles linguistiques (LLM) de haute qualité nécessite leur évaluation pour fournir des données supplémentaires en exploitant les DSE, et l’identification des meilleurs moyens de générer et d’utiliser ces données.
Ces modèles avancés pourraient également produire de telles données pour un traitement ultérieur par des LM plus petits. De plus, le potentiel de biais doit être compris avant de pouvoir être utilisé à des fins de recherche.
La présente étude examine diverses méthodes d’extraction de SDoH par les LLM, en se concentrant sur six facteurs importants. Les six classes utilisées par les LLM dans cette étude comprenaient l’emploi, le logement, les transports, le statut parental, les relations et le soutien social.
Il explore également l’utilité d’ajouter ces données synthétiques tout en affinant les modèles. Enfin, il a comparé divers LLM en termes de performances dans l’identification des SDoH et des chances d’introduire un biais dans les prédictions.
Qu’a montré l’étude ?
Les chercheurs ont découvert que parmi les modèles utilisés : à savoir BERT et divers modèles Flan-T5, ainsi que la famille ChatGPT, les modèles les plus performants pour extraire toute mention de SDoH étaient le Flan-T5 XL affiné, qui excellait dans 3 des 6 catégories avec des données synthétiques. Pendant ce temps, pour les mentions défavorables du SDoH, il s’agissait du Flan-T5 XXL sans données synthétiques.
Le moins de paramètres ont été réglés pour ces deux modèles. Plus le modèle est grand, meilleures sont les performances.
Lorsque les données synthétiques extraites et traitées par les LLM ont été incorporées dans les ensembles de données de formation, les résultats différaient selon les modèles et l’architecture du code. L’amélioration la plus importante s’est produite lorsque l’ensemble de données de formation comportait le plus petit nombre d’instances et lorsque le modèle formé uniquement avec l’or a obtenu les pires performances. Cependant, dans l’ensemble, les performances ont été améliorées avec des modèles plus petits.
Lorsque les données sur l’or ont été progressivement supprimées, les performances sont restées cohérentes avec l’ajout de données synthétiques jusqu’à ce qu’environ 50 % aient été supprimées. À l’inverse, sans données synthétiques, il a commencé à baisser après la suppression de 10 à 20 % des données sur l’or, comme ce serait le cas dans un contexte à faibles ressources.
Par rapport à ChatGPT, les modèles Flan-T5 affinés ont fait mieux que GPT-turbo-0613 et GPT4-0613 sur n’importe quelle tâche SDoH, mais moins bien sur la tâche Adverse SDoH. Les modèles affinés les plus performants ont produit de meilleurs résultats lorsqu’ils étaient réglés sur des réglages de zéro ou de quelques coups. L’exception était lorsque GPT était réglé sur 10 coups, invitant à un SDoH défavorable.
Les modèles affinés étaient également plus cohérents dans leurs prédictions après avoir incorporé des facteurs SDoH tels que la race et le sexe, indiquant que leurs algorithmes étaient moins biaisés. Autrement dit, ChatGPT était beaucoup plus susceptible de modifier sa classification lorsque le sexe féminin était attribué pour toute tâche SDoH au lieu du sexe masculin.
De même, les données de catégorie Support étiquetées or pour les tâches Any et Adverse SDoH généraient le plus grand risque de générer des écarts dans les prédictions lorsque ChatGPT était utilisé, à 56 % et 21 %, respectivement. Le même type de données pour la catégorie Emploi a injecté les plus grandes chances de prédiction divergente pour toute tâche SDoH avec le modèle affiné par rapport à la tâche Transport pour SDoH défavorable, à 14 % et 12 %, respectivement.
Enfin, ces modèles ont capturé près de 94 % des patients présentant une SDoH défavorable, contre 2 % avec la pratique standard du DSE, c’est-à-dire les codes CIM-10. Cela couvre un très grand écart de 92 %.
Les chercheurs ont ainsi pu développer des modèles classifiant les patients selon six catégories SDoH à l’aide de notes cliniques. Ils ont détecté les différences de performances entre le classificateur BERT le plus couramment utilisé et les LLM tels que Flan-T5 XL et XXL.
Après ajustement fin, les modèles ont obtenu de meilleurs résultats que ChatGPT et ont résisté à la détérioration suite à l’introduction de termes descriptifs démographiques synthétiques.
Quelles sont les implications ?
Tous les modèles ont été capables d’identifier des phrases en texte libre sans mentions explicites de SDoH, bien que les mentions du statut parental aient été les moins performantes pour les mentions Any SDoH, ainsi que pour le transport. Pour les tâches Adverse SDoH, les pires performances concernaient le statut parental et le soutien social.
Les performances supérieures de ces modèles sont impressionnantes étant donné que seulement 3 % de toutes les phrases de l’ensemble de formation mentionnaient un SDoH et que ces descriptions sont complexes en termes de signification et d’utilisation du langage. Les résultats de cette étude ont souligné des rapports antérieurs selon lesquels les meilleures performances en matière d’extraction SDoH utilisaient l’intégralité du dossier clinique plutôt que uniquement la section sur l’histoire sociale, car ces données sont souvent dispersées dans les notes. À l’inverse, de nombreux types de notes omettent de mentionner l’histoire sociale.
La catégorie la moins mentionnée était le logement, mais le modèle le plus performant a bien réussi à classer ce facteur, suggérant l’utilité des LLM pour augmenter la collecte de données dans des situations réelles où les informations sont très peu rapportées et donc plus facilement manquées lorsqu’elles sont compilées manuellement.
De plus, la recherche actuelle pourrait aider à résoudre le problème de la collecte de données dans des catégories peu documentées à partir de la grande quantité de texte des DSE. Les modèles ChatGPT GPT3.5 et GPT4 se sont également révélés utiles pour de telles tâches, potentiellement dans l’attente d’une étude plus approfondie.
Les gains liés à l’utilisation des LLM pour identifier les SDoH par rapport aux antécédents médicaux sont au moins doubles : «améliorer les preuves concrètes sur les SDoH et aider à identifier les patients qui pourraient bénéficier d’un soutien en ressources.» Ce travail met également en évidence la nécessité d’inclure ces facteurs lors de la prévision des résultats en matière de santé.