Dans une récente étude publiée sur medRxiv* serveur de préimpression, les chercheurs ont évalué la précision du diagnostic de ChatGPT.
Ces dernières années ont vu une augmentation significative du nombre de personnes cherchant des conseils médicaux en ligne. De nombreuses personnes recherchent un diagnostic probable en recherchant la littérature sur le Web concernant les symptômes qu’elles ressentent. Les modèles de transformateurs génératifs pré-entraînés (GPT) tels que les chatbots (tels que ChatGPT) pourraient révolutionner le domaine de la médecine et initier l’autodiagnostic en fournissant des données, y compris les symptômes et les diagnostics différentiels des conditions médicales.
Étude : ChatGPT en tant que médecin ? Une étude de précision diagnostique sur les maladies courantes et rares. Crédit d’image : metamorworks/Shutterstock
*Avis important: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.
À propos de l’étude
Dans la présente étude, les chercheurs ont cherché à savoir si ChatGPT pouvait diagnostiquer avec précision divers cas cliniques.
L’équipe a inclus 50 vignettes de cas cliniques, dont 40 cas couramment observés et 10 cas rares. Les 10 cas rarement observés ont été générés par une sélection aléatoire de maladies rares et un médicament orphelin avec un statut positif de l’Agence européenne des médicaments (EMA). Les noms des maladies rares ont été utilisés comme requêtes sur la base de données PunMed, et la description de cas du premier article correspondant a été utilisée pour l’analyse.
Concernant les plaintes courantes, 40 des 45 vignettes de cas initialement obtenues ont été utilisées. Cinq cas comprenant le diagnostic dans la symptomatologie ont été exclus. L’équipe a interrogé ChatGPT pour les 10 diagnostics les plus probables pour la vignette de cas clinique des patients, saisie en texte intégral. Aucune extraction de symptômes n’a été effectuée.
Toutes les vignettes ont été invitées trois fois dans des boîtes de discussion indépendantes. Deux versions de ChatGPT ont été utilisées, à savoir la version 3.50 et la version 4.0, donnant un total de 300 invites et 3 000 diagnostics médicaux suggérés. Un médecin humain a comparé les diagnostics suggérés par ChatGPT avec les diagnostics corrects pour les vignettes de cas respectives.
Les cas étaient considérés comme correctement diagnostiqués en cas d’appariement direct (par exemple, « otite moyenne aiguë » diagnostiquée par le chatbot comme « otite moyenne aiguë ») ou si le ChatGPT suggérait des relations hiérarchiques de type direct avec le bon diagnostic médical (par exemple, « otite moyenne aiguë pharyngite » pour « pharyngite », « gangliosidose GM2 » pour la maladie de Tay-Sachs et « AVC ischémique » pour « AVC »).
La précision des diagnostics indiqués a été exprimée en précision topX, représentant le pourcentage de cas résolus en utilisant un maximum de X diagnostics indiqués. Par exemple, une précision diagnostique de 100,0 % dans le top 1 dénoterait toutes les vignettes de cas cliniques résolues par le diagnostic médical initialement suggéré. Si sept cas sur 10,0 étaient résolus par le diagnostic initialement indiqué et un cas supplémentaire par le diagnostic indiqué ultérieurement, les pourcentages pour top1 et top2 seraient de 70,0 % et 80,0 %, respectivement. De plus, des tests de Fleiss ont été effectués pour déterminer le niveau de concordance entre le diagnostic indiqué par ChatGPT et le diagnostic correct.
Résultats
ChatGPT 4.0 pourrait fournir deux diagnostics pour les 40 cas couramment observés. Pour les cas rares, la version 4.0 de ChatGPT 4.0 nécessitait ≥8.0 suggestions de diagnostic pour résoudre 90 % des cas. Concernant les cas courants, ChatGPT 4.0 a obtenu de meilleurs résultats pour toutes les invites que ChatGPT 3.50. La précision top2 pour ChatGPT 3.50 était supérieure à 90,0 %, et la précision top3 pour la version 4.0 était de 100,0 % pour tous les cas.
Les résultats ont indiqué que dans les deux diagnostics indiqués, ChatGPT 3.50 pouvait résoudre plus de 90,0 % des cas, et dans les trois diagnostics indiqués, ChatGPT 4.0 pouvait résoudre tous les cas. Les résultats de la version 4.0 étaient significativement meilleurs que ceux de la version 3.50, et les diagnostics indiqués par chatGPT étaient significativement identiques aux diagnostics médicaux corrects.
Concernant les cas rares, la version 3.50 était précise à 60,0%, avec le bon diagnostic parmi les 10 diagnostics indiqués par le chatbot. De plus, seuls 23,0% des diagnostics corrects ont été répertoriés comme résultat initial. La version 4.0 a mieux fonctionné que la version 3.50. Néanmoins, la précision du diagnostic de ChatGPT 4.0 pour les cas rares était loin de celle observée pour les cas courants.
Parmi les cas rares, 40,0 % ont été résolus avec le diagnostic initial indiqué ; cependant, un minimum de huit suggestions de diagnostic était nécessaire pour atteindre une précision de diagnostic de 90,0 %. Aucun des modèles n’a atteint une précision de 100 %. Cependant, pas un seul cas n’est resté non résolu par ChatGPT, c’est-à-dire que l’utilisation de ChatGPT 4.0 trois fois a donné 3,0×10 suggestions de diagnostic, qui comprenaient le diagnostic correct pour chaque cas ≥1,0 fois.
Les résultats ont indiqué que l’exécution répétée des modèles pour une invite de saisie pourrait améliorer la précision du diagnostic. Les résultats du test de Fleiss ont indiqué un bon accord et un accord modéré pour les cas fréquents et rares, respectivement. ChatGPT 4.0 a indiqué le diagnostic correct directement et indirectement dans les résultats initiaux et ultérieurs et a justifié les diagnostics indiqués en cartographiant les valeurs des tests de laboratoire et en fournissant des diagnostics alternatifs pour les symptômes ressentis.
Pour conclure, sur la base des résultats de l’étude, ChatGPT pourrait être un outil précieux pour assister les consultations médicales humaines pour le diagnostic des cas compliqués. ChatGPT 4.0 comprend sémantiquement les diagnostics médicaux plutôt que de simplement les copier et les coller à partir de documents de recherche, de pages Web ou de livres. Malgré la bonne précision dans le diagnostic des cas courants, le chatGPT doit être utilisé avec prudence par les non-professionnels de la santé, et les médecins doivent être consultés avant de conclure à toute condition clinique, comme indiqué par le chatbot lui-même.
*Avis important: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.