Dans une étude récente publiée dans Réseau JAMA ouvertune équipe de chercheurs de l’Université Vanderbilt a examiné le rôle potentiel du Chat-Generative Pre-Trained Transformer (ChatGPT) dans la fourniture d’informations médicales aux patients et aux professionnels de la santé.
Étude : Précision et fiabilité des réponses des chatbots aux questions des médecins. Crédit d’image : CkyBe/Shutterstock
Sommaire
Arrière-plan
ChatGPT est aujourd’hui largement utilisé à diverses fins. Ce grand modèle linguistique (LLM) a été formé sur des articles, des livres et d’autres sources sur le Web. ChatGPT comprend les demandes des utilisateurs humains et fournit des réponses au format texte et, désormais, image. Contrairement aux modèles de traitement du langage naturel (NLP) qui l’ont précédé, ce chatbot peut apprendre par lui-même grâce à un « apprentissage auto-supervisé ».
ChatGPT synthétise rapidement d’immenses quantités d’informations, ce qui en fait un outil de référence inestimable. Les professionnels de la santé pourraient utiliser cette application pour tirer des conclusions à partir de données médicales et être informés de décisions cliniques complexes. Cela rendrait les soins de santé plus efficaces, car les médecins n’auraient pas besoin de rechercher plusieurs références pour obtenir les informations nécessaires. De la même manière, les patients pourraient accéder à des informations médicales sans avoir à se fier uniquement à leur médecin.
Cependant, l’utilité de ChatGPT en médecine, pour les médecins et les patients, réside dans sa capacité à fournir des informations précises et complètes. De nombreux cas ont été documentés dans lesquels le chatbot a « halluciné » ou produit des réponses convaincantes qui étaient totalement incorrectes. Il est crucial d’évaluer son exactitude pour répondre aux requêtes liées à la santé.
« Notre étude fournit des informations sur les performances du modèle pour répondre aux questions médicales développées par des médecins d’un large éventail de spécialités ; ces questions sont intrinsèquement subjectives, ouvertes et reflètent les défis et les ambiguïtés auxquels les médecins et, par conséquent, les patients sont confrontés cliniquement.
À propos de l’étude
Trente-trois médecins, professeurs et récents diplômés du centre médical de l’université Vanderbilt ont élaboré une liste de 180 questions appartenant à 17 spécialités pédiatriques, chirurgicales et médicales. Deux ensembles de questions supplémentaires comprenaient des requêtes sur les mélanomes, l’immunothérapie et les conditions médicales courantes. Au total, 284 questions ont été choisies.
Les questions ont été conçues pour avoir des réponses claires basées sur les directives médicales de début 2021 (à la fin de la formation pour le chatbot version 3.5). Les questions peuvent être binaires (avec réponses oui/non) ou descriptives. En fonction de la difficulté, ils ont été classés comme faciles, moyens ou difficiles.
Un enquêteur a saisi chaque question dans le chatbot, et la réponse à chaque question a été évaluée par le médecin qui l’a conçu. L’exactitude et l’exhaustivité ont été évaluées à l’aide d’échelles de Likert. Chaque question a été notée de 1 à 6 pour l’exactitude, où 1 indiquait « complètement incorrect » et 6 « complètement correct ». De même, l’exhaustivité a été notée de 1 à 3, 3 étant le plus complet et 1 le moins complet. Une réponse complètement incorrecte n’a pas été évaluée quant à son exhaustivité.
Les résultats des scores ont été rapportés comme médians [interquartile range (IQR)] et méchant [standard deviation (SD)]. Les différences entre les groupes ont été évaluées à l’aide des tests U de Mann-Whitney, des tests de Kruskal-Wallis et des tests de rang signé de Wilcoxon. Lorsque plusieurs médecins ont répondu à une question particulière, la concordance entre les évaluateurs a également été vérifiée.
Les questions mal répondues ont été posées une seconde fois, entre une et trois semaines plus tard, afin de vérifier si les résultats étaient reproductibles dans le temps. Toutes les questions basées sur l’immunothérapie et le mélanome ont également été réévaluées pour évaluer les performances du modèle le plus récent, ChatGPT version 4.
Résultats
En termes de précision, le chatbot a obtenu un score médian de 5 (IQR : 1-6) pour la première série de 180 questions multispécialités, ce qui indique que la réponse médiane était « presque toutes correctes ». Cependant, le score moyen était inférieur, à 4,4. [SD: 1.7]. Alors que le score médian d’exhaustivité était de 3 (« exhaustif »), le score moyen était inférieur à 2,4. [SD: 0.7]. Trente-six réponses ont été classées comme inexactes, avec une note de 2 ou moins.
Pour le premier ensemble, l’exhaustivité et l’exactitude étaient également légèrement corrélées, avec un coefficient de corrélation de 0,4. Il n’y avait aucune différence significative dans l’exhaustivité et l’exactitude des réponses de ChatGPT entre les questions faciles, modérées et difficiles et entre les questions descriptives et binaires.
Pour l’analyse de reproductibilité, 34 des 36 ont été réévalués. Les performances du chatbot se sont nettement améliorées, 26 étant plus précis, 7 restant constants et un seul étant moins précis qu’auparavant. Le score médian de précision est passé de 2 à 4.
Les questions liées à l’immunothérapie et au mélanome ont été évaluées à deux reprises. Au premier tour, le score médian était de 6 (IQR : 5-6) et le score moyen était de 5,2 (SD : 1,3). Le chatbot a obtenu de meilleurs résultats au deuxième tour, améliorant son score moyen à 5,7 (SD : 0,8). Les scores d’exhaustivité ont également augmenté et le chatbot a également obtenu des scores élevés sur les questions liées aux conditions courantes.
« Cette étude indique qu’après trois mois d’existence, le chatbot promet de fournir des informations médicales précises et complètes. Cependant, il reste encore loin d’être totalement fiable.
Conclusions
Dans l’ensemble, ChatGPT a bien fonctionné en termes d’exhaustivité et d’exactitude. Cependant, le score moyen était nettement inférieur au score médian, ce qui suggère que quelques réponses très inexactes (« hallucinations ») ont fait baisser la moyenne. Puisque ces hallucinations sont prononcées sur le même ton convaincant et autoritaire, elles sont difficiles à distinguer des réponses correctes.
ChatGPT s’est nettement amélioré au cours de la courte période entre les évaluations. Cela indique l’importance de mettre à jour et d’affiner continuellement les algorithmes et d’utiliser les commentaires répétés des utilisateurs pour renforcer l’exactitude factuelle et les sources vérifiées. L’augmentation et la diversification des ensembles de données de formation (au sein de sources médicales) permettront à ChatGPT d’analyser les nuances des concepts et des termes médicaux.
De plus, le chatbot n’a pas pu faire la distinction entre les sources de « haute qualité » telles que les articles de revues de l’index PubMed et les directives médicales et les sources de « mauvaise qualité » telles que les articles sur les réseaux sociaux – il les évalue de la même manière. Avec le temps, ChatGPT peut devenir un outil précieux pour les médecins et les patients, mais il n’en est pas encore là.