La capacité du chatbot IA GPT-4 à effectuer de manière appropriée un raisonnement probabiliste lors du diagnostic par rapport à une vaste enquête auprès de cliniciens humains

Dans une étude récente publiée dans Réseau JAMA ouvertun groupe de chercheurs a évalué la compétence de l’intelligence artificielle (IA) Generative Pre-trained Transformer 4 (GPT-4) en matière de raisonnement probabiliste par rapport aux cliniciens humains en évaluant les estimations de probabilité pré-test et post-test dans des cas de diagnostic.

Étude : Intelligence artificielle par rapport aux performances des cliniciens dans l’estimation des probabilités de diagnostic avant et après les tests. Crédit d’image : Rokas Tenys/Shutterstock.com

Arrière-plan

Afin de diagnostiquer une maladie, il est nécessaire de calculer la probabilité de différentes maladies en fonction de la manifestation des symptômes, puis de corriger ces pourcentages à l’aide des résultats du diagnostic.

Néanmoins, il n’est pas facile pour les cliniciens d’estimer les probabilités pré-test et post-test, que ce soit à l’aide de statistiques ou de situations réelles de patients. Les grands modèles de langage (LLM) peuvent aider à résoudre des problèmes de diagnostic complexes, à réussir des examens médicaux et à interagir avec les patients avec empathie dans le raisonnement clinique.

Des recherches supplémentaires sont nécessaires pour explorer tout le potentiel et les limites de l’IA dans des scénarios de diagnostic complexes et réels, car les études actuelles montrent différents niveaux de performance de l’IA dans le raisonnement probabiliste par rapport aux cliniciens humains.

À propos de l’étude

La présente étude a consisté à analyser les performances de 553 praticiens en raisonnement probabiliste à l’aide des données d’une enquête nationale menée entre juin 2018 et novembre 2019. Ces praticiens ont été évalués à travers cinq cas, chacun aligné sur des normes de référence scientifiques.

Pour évaluer les capacités de l’IA dans ce domaine, les chercheurs ont reproduit chaque cas de l’enquête dans un modèle. Cette approche comprenait l’incorporation d’invites spécifiques conçues pour obtenir de l’IA une réponse engagée concernant les probabilités du pré-test et du post-test.

Compte tenu de la nature stochastique des LLM, l’équipe a utilisé une stratégie pour garantir la fiabilité de ses résultats. Ils ont exécuté cent fois une invite identique dans l’interface de programmation d’application du LLM. Cela a été fait avec le réglage de température par défaut du modèle, qui est réglé pour maintenir un équilibre entre créativité et cohérence dans les réponses. Ce processus, mené en octobre 2023, a permis de créer une répartition des réponses de sortie de l’IA.

Pour quantifier les performances de l’IA, les chercheurs ont calculé les plages médianes et interquartiles (IQR) des estimations LLM. De plus, ils ont déterminé l’erreur absolue moyenne (MAE) et l’erreur absolue moyenne en pourcentage (MAPE) pour l’IA et les participants humains. L’équipe a effectué son analyse et créé des tracés à l’aide de R, version 4.3.0. Le comité d’examen institutionnel de l’Université du Maryland a jugé cette étude exemptée, car elle n’impliquait pas de participants humains, et a adhéré aux lignes directrices sur le renforcement du reporting des études observationnelles en épidémiologie (STROBE) tout au long de sa conduite.

Résultats de l’étude

Dans une étude comparative entre des cliniciens humains et un LLM, des résultats intrigants ont été observés concernant l’estimation des probabilités pré-test et post-test dans divers cas de diagnostic. Cette étude, impliquant une analyse de cinq cas différents, a révélé que le LLM démontrait systématiquement des taux d’erreur plus faibles dans la prédiction des probabilités après un résultat de test négatif par rapport aux praticiens humains.

Un exemple notable de ceci a été observé dans le cas d’une bactériurie asymptomatique. Ici, la probabilité médiane pré-test des LLM a été estimée à 26 % (avec un IQR de 20 % à 30 %), tandis que l’estimation médiane des cliniciens humains était légèrement inférieure à 20 % mais avec une plage interquartile beaucoup plus large de 10 % à 50 %. . Bien que l’estimation médiane du LLM soit plus éloignée de la bonne réponse que celle des humains, le LLM a présenté un MAE et un MAPE inférieurs à 26,2 et 5 240 %, respectivement.

En revanche, les chiffres pour les cliniciens humains étaient plus élevés, à 32,2 pour le MAE et à 6 450 % pour le MAPE. Cette différence pourrait être attribuée à la distribution plus étroite des réponses du LLM, fournissant une plage d’estimations plus cohérente par rapport à la variabilité plus large observée dans les réponses humaines.

De plus, leur estimation du test post-probabilité suite à un résultat de test positif était également remarquable, mais incohérente. Par exemple, concernant le cancer du sein et aussi une situation imaginaire avec des tests, le LLM a surpassé les médecins cliniciens en précision. Cela indique qu’il est possible que le LLM ait mieux compris ou mieux traité ces troubles médicaux spécifiques.

Les performances de l’IA étaient également similaires à celles des cliniciens humains dans deux autres situations, ce qui suggère une bonne expertise comparable à celle d’un personnel médical parfaitement formé. Néanmoins, un cas dans lequel la précision du LLM était inférieure à celle des humains montre certains points qui pourraient être améliorés dans les capacités de diagnostic du LLM.

Ces résultats soulignent le potentiel de l’IA, en particulier des LLM, dans le domaine du diagnostic médical. La capacité des LLM à égaler ou dépasser les performances humaines dans l’estimation des probabilités de diagnostic met en valeur les progrès de la technologie de l’IA et son applicabilité dans les soins de santé. Cependant, les performances variées selon les différents cas indiquent également la nécessité d’affiner et de comprendre continuellement le rôle et les limites de l’IA dans la prise de décision médicale complexe.