Dans une étude récente publiée dans JAMA médecine interneles chercheurs ont évalué la capacité de ChatGPT, un assistant chatbot basé sur l’intelligence artificielle, à répondre aux questions des patients postées sur un forum de médias sociaux accessible au public.
Sommaire
Arrière-plan
En raison de l’expansion rapide des soins de santé numériques, de plus en plus de patients ont commencé à poser des questions sur les forums de médias sociaux. Répondre à ces questions est non seulement chronophage mais fastidieux pour les professionnels de la santé. Les assistants d’IA, comme ChatGPT, pourraient aider à résoudre ce travail supplémentaire et aider à rédiger des réponses de qualité, que les cliniciens pourraient ensuite examiner.
Étude: Comparaison des réponses des médecins et des chatbots d’intelligence artificielle aux questions des patients publiées sur un forum public de médias sociaux. Crédit d’image : Studio de Wright/Shutterstock
À propos de l’étude
Dans la présente étude transversale, les chercheurs ont tiré au hasard 195 échanges en réponse à une question d’un patient posée sur r/AskDocs de Reddit, un forum de médias sociaux accessible au public, en octobre 2022. Ensuite, une équipe de professionnels de la santé agréés a généré une nouvelle session de chatbot en utilisant le texte intégral original de la question à laquelle un médecin a répondu, puis évalué les réponses anonymisées du médecin et du chatbot. Notez que cette session était exempte de toute question préalable susceptible de biaiser les résultats. Ensuite, ils ont évalué les résultats moyens de ChatGPT et des médecins sur une échelle de 1 à 5 pour leur qualité et leur empathie, un score plus élevé indiquant une meilleure qualité.
Sur r/AskDocs, les modérateurs de subreddit vérifient les informations d’identification des professionnels de la santé qui publient une réponse et l’affichent à côté de la réponse. Les chercheurs ont également anonymisé les messages des patients en supprimant les informations uniques pour protéger l’identité des patients et rendre cette étude conforme à la loi HIPAA (Health Insurance Portability and Accountability Act).
De plus, les chercheurs ont comparé le nombre de mots dans les réponses des médecins et du chatbot pour déterminer le nombre de réponses pour lesquelles les évaluateurs ont préféré le chatbot. En outre, ils ont comparé les taux de réponses sur des seuils prédéfinis, par exemple, moins qu’adéquats, pour calculer les taux de prévalence pour les réponses des chatbots et des médecins.
Enfin, l’équipe a rapporté la corrélation de Pearson entre les scores de qualité et d’empathie. En outre, ils ont évalué dans quelle mesure le sous-ensemble des données dans des réponses plus longues rédigées par des médecins (longueur > 75e centile) modifiait les préférences des évaluateurs et les cotes de qualité ou d’empathie.
Résultats
Dans 585 évaluations équivalant à 78,6 % de réponses, les évaluateurs ont préféré les réponses des chatbots (ou ChatGPT) aux réponses des médecins. De manière frappante, même par rapport aux réponses les plus longues rédigées par des médecins, les réponses ChatGPT ont été notées significativement plus élevées pour la qualité et l’empathie.
La proportion de réponses notées ≥4 indiquant une qualité « bonne » ou « très bonne » était plus élevée pour les chatbots que pour les médecins (chatbot : 78,5 % vs médecins : 22,1 %). Cela équivalait à une qualité 3,6 fois supérieure dans les réponses des chatbots.
De plus, la proportion de réponses de chatbot notées ≥4, indiquant « empathique » ou « très empathique » était supérieure aux réponses des médecins (t = 18,9). De même, la proportion de réponses notées ≥4 indiquant « empathique » ou « très empathique » était plus élevée pour les réponses chatbot que pour les médecins (chatbot : 45,1 % vs médecins : 4,6 %). Cela équivalait à une empathie 9,8 fois plus élevée dans les réponses des chatbots.
Le coefficient de corrélation de Pearson (r) entre les scores de qualité et d’empathie rédigés par des médecins par rapport aux chatbots était de 0,59 et 0,32, respectivement.
Conclusion
Dans les dossiers de santé électroniques, chaque nouveau message ajoutait 2,3 minutes supplémentaires de travail après les heures normales de travail pour un professionnel de la santé. Ainsi, l’augmentation du volume de messagerie s’est traduite par une augmentation de l’épuisement professionnel des cliniciens, 62 % des médecins éprouvant au moins un symptôme d’épuisement professionnel. Cela a également augmenté la probabilité que les messages des patients restent sans réponse ou obtiennent des réponses inutiles.
Certaines requêtes de patients nécessitent plus de compétences et de temps pour répondre ; cependant, la plupart ne recherchent pas de conseils médicaux de haute qualité et sont génériques, comme poser des questions sur les rendez-vous et les résultats des tests. Il représente un territoire inexploré où les assistants d’IA pourraient être testés et, en cas de succès, pourraient aider à réduire ou à gérer la charge supplémentaire imposée aux cliniciens par les messages des patients.
ChatGPT est bien reconnu pour son potentiel extraordinaire à écrire des réponses de qualité humaine sur des sujets variés au-delà des concepts de santé de base. Ainsi, répondre aux patients à la recherche de conseils médicaux sur les forums de médias sociaux pourrait aider à faire gagner du temps au personnel clinique pour des tâches plus complexes, à rédiger une réponse que les médecins ou le personnel de soutien pourront modifier plus tard et, surtout, à apporter plus de cohérence dans les réponses.
De plus, si les patients recevaient une réponse rapide à leurs questions, cela pourrait réduire les visites inutiles à la clinique et même aider les patients à mobilité réduite ou qui ont des horaires de travail irréguliers. Pour certains patients, la messagerie rapide peut avoir une incidence collatérale sur les comportements de santé, par exemple, une adhésion plus stricte au régime alimentaire et aux médicaments.
Dans l’ensemble, cette étude a donné des résultats prometteurs et a démontré que l’utilisation d’assistants d’IA a le potentiel d’améliorer les résultats des cliniciens et des patients. Néanmoins, l’évaluation des technologies basées sur l’IA dans des essais cliniques randomisés est toujours essentielle avant leur mise en œuvre dans des contextes cliniques réels. De plus, ces essais devraient examiner plus en détail leur effet sur l’épuisement professionnel du personnel clinique et des médecins.