Un outil d'IA peut rédiger avec précision des réponses aux questions des patients sur leur DSE

Dans le cadre d'une tendance nationale qui s'est produite pendant la pandémie, de plus en plus de patients de NYU Langone Health ont commencé à utiliser des outils de dossiers médicaux électroniques (DME) pour poser des questions à leurs médecins, renouveler leurs ordonnances et consulter les résultats de leurs tests. Bon nombre de ces demandes numériques sont arrivées via un outil de communication appelé In Basket, intégré au système de DME de NYU Langone, EPIC.

Bien que les médecins aient toujours consacré du temps à la gestion des messages du DSE, ils ont constaté une augmentation annuelle de plus de 30 % ces dernières années du nombre de messages reçus quotidiennement, selon un article du Dr Paul A. Testa, directeur de l’information médicale à NYU Langone. Le Dr Testa a écrit qu’il n’est pas rare que les médecins reçoivent plus de 150 messages In Basket par jour. Les systèmes de santé n’étant pas conçus pour gérer ce type de trafic, les médecins ont fini par combler le vide, passant de longues heures après le travail à trier les messages. Ce fardeau est cité comme l’une des raisons pour lesquelles la moitié des médecins déclarent être épuisés.

Une nouvelle étude, menée par des chercheurs de la NYU Grossman School of Medicine, montre qu'un outil d'IA peut rédiger des réponses aux questions des patients dans leur DSE avec autant de précision que leurs professionnels de santé, et avec une plus grande « empathie » perçue. Les résultats soulignent le potentiel de ces outils à réduire considérablement la charge de travail des médecins dans leur panier de réception tout en améliorant leur communication avec les patients, à condition que les prestataires humains examinent les brouillons de l'IA avant de les envoyer.

L'université de New York Langone a testé les capacités de l'intelligence artificielle générative (genAI), dans laquelle des algorithmes informatiques développent des options probables pour le mot suivant dans n'importe quelle phrase en fonction de la façon dont les gens ont utilisé les mots dans leur contexte sur Internet. Le résultat de cette prédiction du mot suivant est que les chatbots genAI peuvent répondre aux questions dans un langage convaincant et humain. En 2023, l'université de New York Langone a obtenu une licence pour « une instance privée » de GPT-4, le dernier-né du célèbre chatbot chatGPT, qui permet aux médecins d'expérimenter en utilisant des données de patients réels tout en respectant les règles de confidentialité des données.

Publié en ligne le 16 juillet dans Ouverture du réseau JAMAla nouvelle étude a examiné les projets de réponses générés par GPT-4 aux requêtes In Basket des patients, demandant aux médecins de soins primaires de les comparer aux réponses humaines réelles à ces messages.

Nos résultats suggèrent que les chatbots pourraient réduire la charge de travail des prestataires de soins en permettant des réponses efficaces et empathiques aux préoccupations des patients. Nous avons constaté que les chatbots IA intégrés au DSE qui utilisent des données spécifiques aux patients peuvent rédiger des messages de qualité similaire à ceux des prestataires de soins humains.

Dr William Small, auteur principal de l'étude, professeur adjoint de clinique au département de médecine de la NYU Grossman School of Medicine

Pour l’étude, 16 médecins généralistes ont évalué 344 paires de réponses IA et humaines attribuées au hasard à des messages de patients en fonction de leur exactitude, de leur pertinence, de leur exhaustivité et de leur ton, et ont indiqué s’ils utiliseraient la réponse IA comme première ébauche ou s’ils devraient repartir de zéro pour rédiger le message du patient. L’étude s’est déroulée en aveugle, les médecins ne savaient donc pas si les réponses qu’ils examinaient étaient générées par des humains ou par l’outil IA.

L'équipe de recherche a constaté que la précision, l'exhaustivité et la pertinence des réponses de l'IA générative et des prestataires humains ne différaient pas statistiquement. Les réponses de l'IA générative ont surpassé celles des prestataires humains en termes de compréhensibilité et de ton de 9,5 %. En outre, les réponses de l'IA étaient plus de deux fois plus susceptibles (125 % de plus) d'être considérées comme empathiques et 62 % plus susceptibles d'utiliser un langage véhiculant une positivité (potentiellement liée à l'espoir) et une affiliation (« nous sommes tous dans le même bateau »).

D’un autre côté, les réponses de l’IA étaient également 38 % plus longues et 31 % plus susceptibles d’utiliser un langage complexe, ce qui nécessite une formation plus poussée de l’outil, affirment les chercheurs. Alors que les humains répondaient aux questions des patients au niveau d’un élève de sixième année, l’IA écrivait au niveau d’un élève de huitième année, selon une mesure standard de lisibilité appelée score Flesch Kincaid.

Les chercheurs ont fait valoir que l’utilisation des informations privées des patients par les chatbots, plutôt que des informations générales sur Internet, correspond mieux à la manière dont cette technologie serait utilisée dans le monde réel. Des études ultérieures seront nécessaires pour confirmer si les données privées améliorent spécifiquement les performances des outils d’IA.

« Ce travail démontre que l'outil d'IA peut créer des brouillons de réponses de haute qualité aux demandes des patients », a déclaré l'auteur correspondant, le Dr Devin Mann, directeur principal de l'innovation informatique au Medical Center Information Technology (MCIT) de l'université de New York Langone. « Grâce à l'approbation de ce médecin, la qualité des messages GenAI sera dans un avenir proche égale en termes de qualité, de style de communication et de facilité d'utilisation aux réponses générées par les humains », a ajouté le Dr Mann, qui est également professeur aux départements de santé de la population et de médecine.

Français Aux côtés du Dr Small et du Dr Mann, les auteurs de l'étude de NYU Langone étaient Beatrix Brandfield-Harvey, BS ; Zoe Jonassen, PhD ; Soumik Mandal, PhD ; Elizabeth R. Stevens, MPH, PhD ; Vincent J. Major, PhD ; Erin Lostraglio ; Adam C. Szerencsy, DO ; Simon A. Jones, PhD ; Yindalon Aphinyanaphongs, MD, PhD ; et Stephen B. Johnson, PhD. Les autres auteurs étaient Oded Nov, MSc, PhD, de la NYU Tandon School of Engineering, et Batia Mishan Wiesenfeld, PhD, de la NYU Stern School of Business.

L'étude a été financée par les subventions 1928614 et 2129076 de la National Science Foundation et par les subventions P500PS_202955 et P5R5PS_217714 du Fonds national suisse de la recherche scientifique.