Dans une étude récente publiée dans le Radiologie Journal, les chercheurs ont effectué une analyse exploratoire prospective pour évaluer les performances de ChatGPT basé sur l’intelligence artificielle (IA) sur des questions d’examen de type comité de radiologie entre le 25 février et le 3 mars 2023.
Étude: Performance de ChatGPT lors d’un examen de type conseil de radiologie : aperçu des forces et des limites actuelles. Crédit d’image : MMDCreative/Shutterstock.com
Sommaire
Arrière-plan
ChatGPT, basé sur GPT-3.5, est un grand modèle de langage général (LLM) pré-formé sur > 45 téraoctets de données textuelles à l’aide de réseaux de neurones profonds.
Bien qu’il ne soit pas formé aux données médicales, ChatGPT a montré un immense potentiel dans la rédaction et l’éducation des données médicales. En conséquence, les médecins utilisent déjà ChatGPT avec des moteurs de recherche pour rechercher des informations médicales.
ChatGPT est à l’étude pour son utilisation potentielle dans la simplification des rapports de radiologie et l’aide à la prise de décision clinique. De plus, cela pourrait aider à éduquer les étudiants en radiologie, à effectuer des diagnostics différentiels et assistés par ordinateur et à classer les maladies.
ChatGPT reconnaît les relations et les modèles entre les mots à travers ses énormes données de formation pour générer des réponses de type humain.
Bien que cela puisse générer une réponse factuellement incorrecte; Cependant, jusqu’à présent, ChatGPT a obtenu des résultats exceptionnels lors de plusieurs examens professionnels, par exemple, l’examen américain de licence médicale, sans aucune préformation spécifique à un domaine.
Bien que ChatGPT semble prometteur pour les applications en radiologie diagnostique, y compris l’analyse d’images, les performances de ChatGPT dans le domaine de la radiologie restent inconnues.
Plus important encore, les radiologues doivent connaître les forces et les limites de ChatGPT pour l’utiliser en toute confiance.
À propos de l’étude
Dans la présente étude, les chercheurs ont inclus 150 questions à choix multiples avec une bonne et trois mauvaises réponses, qui correspondaient au contenu, au style et au niveau de difficulté de l’examen du Collège royal canadien en radiologie diagnostique et des examens de base et de certification de l’American Board of Radiology.
Ces examens du jury évaluent de manière exhaustive les connaissances conceptuelles de la radiologie et la capacité de raisonner et de porter un ou plusieurs jugements cliniques.
Deux radiologues certifiés ont examiné ces questions de manière indépendante et se sont assurés qu’elles correspondaient à des critères spécifiques, par exemple, les questions n’avaient pas d’images, les mauvaises réponses étaient plausibles et de longueur similaire à la bonne réponse, etc.
Au moins 10 % des questions provenaient de neuf sujets répertoriés par le Collège royal canadien pour s’assurer que ces questions à choix multiples portaient sur des sujets qui couvraient de manière exhaustive le concept de la radiologie.
Deux autres radiologues certifiés ont classé ces 150 questions à choix multiples par type en utilisant les principes de la taxonomie de Bloom en pensée d’ordre inférieur ou supérieur.
L’équipe a saisi toutes les questions avec leurs choix de réponse dans ChatGPT pour simuler une utilisation dans le monde réel et a enregistré toutes les réponses ChatGPT. Le Collège royal considère ≥70 % sur toutes les composantes écrites comme des notes de passage.
Deux autres radiologues certifiés par le conseil ont évalué subjectivement la langue de chaque réponse ChatGPT pour son niveau de confiance sur une échelle de Likert sur un à quatre, où un score de quatre indiquait une confiance élevée et zéro indiquait aucune confiance.
Enfin, les chercheurs ont également fait des observations qualitatives du comportement de ChatGPT lorsqu’ils ont demandé au modèle la bonne réponse.
Tout d’abord, les chercheurs ont calculé les performances globales de ChatGPT. Ensuite, ils ont comparé ses performances à l’aide du test exact de Fisher entre les types de questions et les sujets, par exemple, liés à la physique ou au type clinique.
En outre, ils ont effectué une analyse de sous-groupe pour les sous-classifications de questions de réflexion d’ordre supérieur. L’équipe avait sous-classé les questions de réflexion d’ordre supérieur en quatre groupes, impliquant la description de l’imagerie, la gestion clinique, l’application de concepts et les associations de maladies.
Enfin, ils ont utilisé le test U de Mann-Whitney pour comparer le niveau de confiance des réponses entre les réponses ChatGPT correctes et incorrectes, où les valeurs de p inférieures à 0,05 indiquaient une différence significative.
Résultats de l’étude
ChatGPT a presque réussi les questions d’examen de type comité de radiologie sans images dans cette étude et a obtenu un score de 69 %.
La performance du modèle était meilleure sur les questions nécessitant une réflexion d’ordre inférieur impliquant le rappel des connaissances et la compréhension de base que celles nécessitant une réflexion d’ordre supérieur (84 % contre 60 %).
Cependant, il a obtenu de bons résultats sur les questions d’ordre supérieur liées à la gestion clinique (89 %), probablement parce qu’une grande quantité de données spécifiques à la maladie et concernant les patients est disponible sur Internet.
Il a lutté avec des questions d’ordre supérieur impliquant la description des résultats d’imagerie, le calcul et la classification, et l’application de concepts.
De plus, ChatGPT a obtenu de mauvais résultats sur les questions de physique par rapport aux questions cliniques (40 % contre 73 %). ChatGPT a utilisé un langage confiant de manière cohérente, même lorsqu’il était incorrect (100 %).
La tendance de ChatGPT à produire en toute confiance des réponses incorrectes de type humain est particulièrement dangereuse s’il s’agit de la seule source d’informations. Ce comportement limite actuellement l’applicabilité de ChatGPT dans l’enseignement médical.
conclusion
ChatGPT a excellé sur les questions évaluant les connaissances de base et la compréhension de la radiologie, et sans formation préalable spécifique à la radiologie, il a presque réussi (score de 69 %) un examen de type comité de radiologie sans images.
Cependant, les radiologues doivent faire preuve de prudence et rester conscients des limites de ChatGPT, y compris sa tendance à présenter des réponses incorrectes avec une confiance de 100 %. En d’autres termes, les résultats de l’étude ne permettent pas de s’appuyer sur ChatGPT pour la pratique ou l’éducation.
Avec les progrès futurs des LLM, la disponibilité des applications basées sur les LLM avec une préformation spécifique à la radiologie augmentera. Dans l’ensemble, les résultats de l’étude sont encourageants pour le potentiel des modèles basés sur les LLM comme ChatGPT en radiologie.