Une nouvelle étude menée par des chercheurs du Mass General Brigham démontre que les grands modèles de langage (LLM), utilisés pour l'intelligence artificielle générative (IA), ChatGPT-4 et Gemini de Google, n'ont démontré aucune différence dans les schémas thérapeutiques aux opioïdes suggérés pour différentes races ou sexes. Les résultats sont publiés dans DOULEUR.
À court terme, je considère les algorithmes d’IA comme des outils complémentaires qui peuvent essentiellement servir de deuxième paire d’yeux, fonctionnant en parallèle avec les professionnels de la santé. Il va sans dire qu’en fin de compte, la décision finale reviendra toujours à votre médecin.
Dr Marc Succi, auteur correspondant, responsable de l'innovation stratégique chez Mass General Brigham Innovation, président associé de l'innovation et de la commercialisation pour la radiologie d'entreprise et directeur exécutif de l'incubateur Medically Engineered Solutions in Healthcare (MESH) chez Mass General Brigham
Les résultats de cette étude montrent comment les LLM pourraient réduire les biais potentiels des prestataires et normaliser les recommandations de traitement lorsqu'il s'agit de prescrire des opioïdes pour gérer la douleur. L'émergence d'outils d'intelligence artificielle dans les soins de santé a été révolutionnaire et a le potentiel de remodeler positivement le continuum des soins. Mass General Brigham, en tant que l'un des meilleurs systèmes de santé universitaires intégrés du pays et l'une des plus grandes entreprises d'innovation, ouvre la voie à la conduite de recherches rigoureuses sur les technologies nouvelles et émergentes pour éclairer l'intégration responsable de l'IA dans la prestation de soins, le soutien du personnel et les processus administratifs.
Les LLM et d’autres formes d’IA ont fait des progrès dans les soins de santé, plusieurs types d’IA étant testés pour fournir un jugement clinique sur l’imagerie et les bilans des patients, mais on craint également que les outils d’IA puissent perpétuer les biais et exacerber les inégalités existantes.
Par exemple, dans le domaine de la gestion de la douleur, des études ont montré que les médecins sont plus susceptibles de sous-estimer et de sous-traiter la douleur chez les patients noirs. Des études connexes sur les visites aux urgences ont également révélé que les patients blancs étaient plus susceptibles de recevoir des opioïdes que les patients noirs, hispaniques et asiatiques. On craint que l’IA puisse aggraver ces biais dans la prescription d’opioïdes, ce qui a incité Succi et son équipe à évaluer la partialité des modèles d’IA pour les plans de traitement aux opioïdes.
Pour cette étude, les chercheurs ont d'abord compilé 40 cas de patients rapportant différents types de douleur (c.-à-d. maux de dos, douleurs abdominales et maux de tête) et ont supprimé toute référence à la race et au sexe du patient. Ils ont ensuite attribué à chaque cas de patient une race aléatoire parmi 6 catégories de possibilités (Amérindien ou natif d'Alaska, Asiatique, Noir, Hispanique ou Latino, Natif d'Hawaï ou autre insulaire du Pacifique et Blanc) avant d'attribuer de la même manière un sexe aléatoire (homme ou femme). Ils ont continué ce processus jusqu'à ce que toutes les combinaisons uniques de race et de sexe aient été générées pour chaque patient, ce qui a donné lieu à 480 cas inclus dans l'ensemble de données. Pour chaque cas, les LLM ont évalué et attribué des notes subjectives de douleur avant de faire des recommandations de gestion de la douleur.
Les chercheurs n’ont constaté aucune différence entre les modèles d’IA et les modèles de recommandations de traitement aux opioïdes en fonction de la race ou du sexe. Leurs analyses ont également révélé que ChatGPT-4 évaluait le plus souvent la douleur comme « sévère », tandis que Gemini évaluait le plus souvent la douleur comme « modérée ». Malgré cela, Gemini était plus susceptible de recommander des opioïdes, ce qui suggère que ChatGPT-4 est un modèle plus conservateur lorsqu’il s’agit de recommander des prescriptions d’opioïdes. Des analyses supplémentaires de ces outils d’IA pourraient aider à déterminer quels modèles sont les plus conformes aux attentes cliniques. « Ces résultats sont rassurants dans la mesure où la race, l’origine ethnique et le sexe des patients n’affectent pas les recommandations, ce qui indique que ces LLM ont le potentiel de contribuer à remédier aux préjugés existants dans les soins de santé », ont déclaré les co-premiers auteurs, Cameron Young et Ellie Einchen, tous deux étudiants à la Harvard Medical School.
Les chercheurs notent que toutes les catégories liées à la race et au sexe n'ont pas été étudiées, car les individus de races mixtes ne peuvent pas s'intégrer clairement dans les classes raciales définies par le CDC. De plus, l'étude a évalué le sexe comme une variable binaire (homme et femme) plutôt que sur un spectre de genre. Les études futures devraient également tenir compte de ces autres facteurs ainsi que de la manière dont la race pourrait influencer les recommandations de traitement du LLM dans d'autres domaines de la médecine.
« Il y a de nombreux éléments à prendre en compte lors de l’intégration de l’IA dans les plans de traitement, comme le risque de sur-prescription ou de sous-prescription de médicaments dans la gestion de la douleur ou la volonté des patients d’accepter des plans de traitement influencés par l’IA », a déclaré Succi. « Ce sont toutes des questions que nous examinons et nous pensons que notre étude apporte des données clés montrant comment l’IA a la capacité de réduire les biais et d’améliorer l’équité en matière de santé. »