Dans une étude récente publiée dans npj Médecine Numérique, un groupe de chercheurs a évalué la tendance de quatre grands modèles linguistiques (LLM) commerciaux à perpétuer des idées fausses médicales fondées sur la race dans le domaine des soins de santé grâce à une analyse systématique de scénarios.
Étude: De grands modèles linguistiques propagent la médecine fondée sur la race. Crédit d’image : Ole.CNX/Shutterstock.com
Arrière-plan
Des recherches récentes mettent en évidence l’efficacité des LLM dans des domaines tels que la cardiologie, l’anesthésiologie et l’oncologie, offrant des réponses de type humain aux demandes médicales. Malgré l’utilité démontrée des LLM dans les domaines médicaux, des inquiétudes persistent en raison de la non-transparence de leurs données de formation et des cas connus de préjugés raciaux et sexistes.
Ces préjugés sont particulièrement troublants en médecine, où persistent des hypothèses historiques erronées fondées sur la race. Les enquêtes ont révélé les idées fausses des stagiaires en médecine sur les différences physiologiques raciales ayant un impact sur les soins aux patients.
Par conséquent, davantage de recherches sont essentielles pour garantir que les LLM, de plus en plus commercialisés pour des applications médicales, ne renforcent pas ces préjugés et inexactitudes, perpétuant ainsi les préjugés systémiques dans les soins de santé.
À propos de l’étude
Dans la présente étude, quatre médecins ont formulé des questions basées sur des pratiques médicales fondées sur la race démystifiées et sur une étude antérieure identifiant des idées fausses sur la race parmi les stagiaires en médecine. Ils ont posé neuf questions à plusieurs LLM, chacune répétée cinq fois pour tenir compte de la variabilité du modèle, donnant 45 réponses par modèle.
Les LLM analysés comprenaient deux versions de Bard de Google, ChatGPT et GPT-4 d’OpenAI, et Claude d’Anthropic, testées de mai à août 2023. Les réponses de chaque modèle ont été réinitialisées après chaque question pour éviter l’apprentissage par répétition, en se concentrant plutôt sur leurs tendances de réponse inhérentes.
Deux médecins ont examiné minutieusement les réponses de chaque modèle pour déterminer la présence de tout contenu réfuté fondé sur la race. En cas de désaccord, la divergence était réglée par consensus, un troisième médecin intervenant pour prendre le jugement décisif.
Cette méthodologie rigoureuse a souligné l’engagement d’évaluer avec précision la propagation potentielle de idées fausses raciales nuisibles par ces modèles linguistiques avancés dans un contexte médical.
Résultats de l’étude
Les résultats de la présente étude démontrent que tous les LLM examinés avaient des cas où ils approuvaient la médecine fondée sur la race ou faisaient écho à des affirmations infondées sur la race, mais pas de manière cohérente à chaque itération de la même question.
Notamment, presque tous les modèles identifiaient correctement la race comme une construction sociale sans base génétique. Cependant, il y a eu des cas, comme avec Claude, où un modèle a ensuite contredit cette information précise, faisant référence à une base biologique pour la race.
Un sujet de préoccupation important était la performance des modèles sur des questions concernant la fonction rénale et la capacité pulmonaire, des sujets avec une histoire notoire de médecine fondée sur la race qui a été scientifiquement discréditée. Interrogés sur le calcul du taux de filtration glomérulaire estimé (DFGe), des modèles comme ChatGPT-3.5 et GPT-4 ont non seulement approuvé l’utilisation de la race dans ces calculs, mais ont également soutenu cette pratique avec des affirmations démystifiées sur les différences raciales dans la masse musculaire et les niveaux de créatinine.
Bard s’est montré sensible à la formulation des questions, répondant à certaines terminologies mais pas à d’autres. De même, les questions sur le calcul de la capacité pulmonaire des individus noirs ont donné lieu à des réponses erronées basées sur la race, contrairement aux questions génériques sans identifiants raciaux.
La recherche s’est étendue aux questions sur les mythes crus auparavant par les stagiaires en médecine, révélant que tous les modèles perpétuaient la fausse notion de différences raciales dans l’épaisseur de la peau.
Les réponses aux questions sur les seuils de douleur étaient mitigées, certains modèles, comme GPT-4, niant à juste titre toute différence, tandis que d’autres, comme Claude, propageaient des affirmations sans fondement fondées sur la race. Cependant, tous les modèles répondent avec précision aux questions sur les disparités raciales en matière de taille du cerveau, identifiant souvent cette notion comme nuisible et raciste.
Compte tenu de la pression en faveur de l’intégration du LLM dans la médecine et des partenariats existants entre les fournisseurs de dossiers de santé électroniques et les développeurs de LLM, le potentiel de ces modèles d’amplifier les préjugés et les inégalités structurelles est alarmant.
Bien que les LLM se soient révélés prometteurs dans les applications médicales, leurs pièges, en particulier la perpétuation d’une médecine fondée sur la race, restent sous-explorés.
Cette étude a révélé que les quatre principaux LLM commerciaux faisaient occasionnellement la promotion d’une médecine fondée sur la race. Ces modèles, formés sans supervision sur de nombreuses données Internet et manuels, absorbent probablement des informations obsolètes, biaisées ou incorrectes, étant donné leur incapacité à évaluer la qualité de la recherche.
Bien que certains modèles subissent une phase d’apprentissage par renforcement avec rétroaction humaine, qui pourrait corriger certains résultats, le processus de formation global non transparent laisse sans réponse les questions sur leurs succès et leurs échecs.
La dépendance des modèles à des équations démystifiées basées sur la race pour les fonctions pulmonaires et rénales, connues pour affecter négativement les patients noirs, est particulièrement troublante. L’étude a également observé la fabrication de données médicales par les modèles, ce qui présente des risques car les utilisateurs ne vérifient pas toujours l’exactitude des informations.
La nature incohérente des réponses problématiques, observée uniquement dans un sous-ensemble de requêtes, souligne le caractère aléatoire des modèles et l’inadéquation des évaluations à passage unique.
Même si la portée de l’étude était limitée à cinq questions par question pour chaque modèle, des requêtes plus approfondies pourraient potentiellement révéler des problèmes supplémentaires. Les résultats soulignent la nécessité d’affiner les LLM pour éliminer les inexactitudes fondées sur la race avant le déploiement clinique.
Compte tenu de ces préoccupations importantes et des dommages potentiels, l’étude conseille vivement aux professionnels de la santé et aux institutions de faire preuve de la plus grande prudence à l’égard des LLM dans la prise de décision médicale.
Une évaluation complète, une transparence accrue et une évaluation approfondie des préjugés sont impératives avant que les LLM ne soient intégrés en toute sécurité dans la formation médicale, la prise de décision ou les soins aux patients.