Une étude révèle le potentiel et les pièges de l'IA dans le diagnostic médical

Publié dans Réseau JAMA ouvert, une équipe collaborative de chercheurs de la faculté de médecine de l'Université du Minnesota, de l'Université de Stanford, du centre médical Beth Israel Deaconess et de l'Université de Virginie a étudié dans quelle mesure les médecins utilisaient GPT-4 – ; un grand système de modèle de langage d'intelligence artificielle (IA) – ; pour diagnostiquer les patients.

L'étude a été menée auprès de 50 médecins américains agréés en médecine familiale, médecine interne et médecine d'urgence. L'équipe de recherche a constaté que la disponibilité du GPT-4 pour les médecins comme aide au diagnostic n'améliorait pas de manière significative le raisonnement clinique par rapport aux ressources conventionnelles. Parmi les autres conclusions clés figurent :

GPT-4 à lui seul a démontré des scores significativement meilleurs en termes de performances diagnostiques, surpassant les performances des cliniciens utilisant les ressources de diagnostic en ligne conventionnelles et des cliniciens assistés par GPT-4.
Il n’y a eu aucune amélioration significative des performances diagnostiques avec l’ajout de GPT-4 lors de l’évaluation des cliniciens utilisant GPT-4 par rapport aux cliniciens utilisant des ressources de diagnostic conventionnelles.

« Le domaine de l'IA se développe rapidement et a un impact sur nos vies, à l'intérieur comme à l'extérieur de la médecine. Il est important que nous étudiions ces outils et comprenions comment nous les utilisons au mieux pour améliorer les soins que nous prodiguons ainsi que l'expérience de leur prestation », a déclaré Andrew Olson, MD, professeur à la faculté de médecine de l'Université du Manitoba et hospitaliste chez M Health Fairview.

Cette étude suggère qu'il existe des opportunités d'amélioration supplémentaire dans la collaboration médecin-IA dans la pratique clinique.

Andrew Olson, MD, professeur, faculté de médecine de l'Université du Minnesota

Ces résultats soulignent la complexité de l’intégration de l’IA dans la pratique clinique. Même si le GPT-4 seul a montré des résultats prometteurs, l’intégration du GPT-4 comme aide au diagnostic aux côtés des cliniciens n’a pas surpassé de manière significative l’utilisation des ressources de diagnostic conventionnelles. Cela suggère un potentiel nuancé pour l’IA dans le domaine des soins de santé, soulignant l’importance d’une exploration plus approfondie de la manière dont l’IA peut soutenir au mieux la pratique clinique. De plus, d’autres études sont nécessaires pour comprendre comment les cliniciens doivent être formés à l’utilisation de ces outils.

Les quatre institutions collaboratrices ont lancé un réseau bi-côtier d'évaluation de l'IA – ; connu sous le nom de ARiSE – ; pour évaluer davantage les résultats de GenAI dans le domaine de la santé.

Le financement de cette recherche a été assuré par la Fondation Gordon et Betty Moore.