Une nouvelle étude révèle que les grands modèles de langage surpassent les médecins en termes de précision diagnostique, mais nécessitent une intégration stratégique pour améliorer la prise de décision clinique sans remplacer l'expertise humaine.
Étude: Influence du grand modèle linguistique sur le raisonnement diagnostique : un essai clinique randomisé. Crédit d’image : Shutterstock AI/Shutterstock.com
Dans une étude récente publiée dans Réseau JAMA ouvertles chercheurs étudient si les grands modèles linguistiques (LLM) pourraient améliorer le raisonnement diagnostique des médecins par rapport à l'utilisation de ressources diagnostiques standard. Il a été constaté que les LLM fonctionnent mieux seuls par rapport aux performances des groupes de médecins utilisant les LLM pour diagnostiquer les cas.
Sommaire
Comment l’intelligence artificielle peut-elle améliorer les diagnostics cliniques ?
Les erreurs de diagnostic, qui peuvent découler de problèmes systémiques et cognitifs, peuvent causer des dommages importants aux patients. Ainsi, l’amélioration de la précision du diagnostic nécessite des méthodes permettant de relever les défis cognitifs qui font partie du raisonnement clinique. Cependant, les méthodes courantes telles que les pratiques réflexives, les programmes éducatifs et les outils d’aide à la décision n’ont pas amélioré efficacement la précision du diagnostic.
Les progrès récents en matière d’intelligence artificielle, en particulier les LLM, offrent un soutien prometteur en simulant un raisonnement et des réponses semblables à ceux des humains. Les LLM peuvent également traiter des cas médicaux complexes et aider à la prise de décision clinique, tout en interagissant avec empathie avec l'utilisateur.
L'utilisation actuelle des LLM dans le domaine de la santé est largement complémentaire pour améliorer l'expertise humaine. Compte tenu de la formation et de l'intégration limitées reçues par les professionnels de la santé sur l'utilisation des LLM en milieu clinique, il est crucial de comprendre l'impact de l'utilisation des LLM en milieu clinique sur les soins aux patients.
À propos de l'étude
Dans la présente étude, les chercheurs ont utilisé une conception randomisée en simple aveugle pour évaluer les capacités de raisonnement diagnostique des médecins en utilisant soit des LLM, soit des ressources conventionnelles. Des médecins travaillant en médecine familiale, d'urgence ou interne ont été recrutés pour l'étude, toutes les séances étant réalisées en personne ou à distance.
Les médecins ont eu une heure pour travailler sur six cas cliniques moyennement complexes présentés dans un outil d'enquête. Les participants à l'étude du groupe d'intervention ont eu accès aux outils LLM ChatGPT Plus et GPT-4, alors que les participants à l'étude du groupe témoin n'ont utilisé que des ressources conventionnelles.
Les cas cliniques comprenaient des antécédents détaillés de patients, des résultats d'examens et de tests. L'examen et la sélection des cas ont suivi des critères stricts impliquant quatre médecins, les cas sélectionnés étant affectés par un large éventail de conditions médicales tout en excluant les cas simples et extrêmement rares.
La réflexion structurée a été incluse comme outil d’évaluation conventionnel. Cela obligeait les participants à énumérer leur principal diagnostic différentiel, à expliquer les facteurs de cas favorables et opposés et à choisir le diagnostic le plus probable tout en proposant d'autres étapes de traitement. Les réponses ont été notées en fonction de l'exactitude du diagnostic final, ainsi que du raisonnement diagnostique.
Les performances diagnostiques objectives du LLM ont été évaluées à l’aide d’invites standardisées, répétées trois fois par souci de cohérence. Les réponses ont ensuite été notées en attribuant des points pour le raisonnement correct et la plausibilité du diagnostic.
Des analyses statistiques utilisant des modèles à effets mixtes ont également été réalisées pour tenir compte de la variabilité intra-participante, tandis que des modèles linéaires et logistiques ont été appliqués aux mesures temporelles et aux performances diagnostiques.
Résultats de l'étude
L'utilisation des LLM par les médecins n'a pas amélioré le raisonnement diagnostique pour les cas difficiles par rapport à l'utilisation de ressources conventionnelles par les médecins. Cependant, les LLM seuls ont obtenu des résultats nettement meilleurs que les médecins dans le diagnostic des cas.
Ces résultats étaient cohérents quel que soit le niveau d’expérience des médecins, ce qui suggère que le simple fait de fournir un accès aux LLM n’était pas susceptible d’améliorer le raisonnement diagnostique.
Aucune différence significative n’a été observée dans les évaluations de résolution de cas entre les groupes. Cependant, d’autres études utilisant des échantillons de plus grande taille sont nécessaires pour déterminer si l’utilisation du LLM améliore l’efficacité.
Les performances autonomes du LLM étaient meilleures que celles des deux groupes humains, avec des résultats similaires à ceux publiés dans des études similaires sur d’autres technologies LLM. La performance impartiale supérieure des LLM est attribuée à la sensibilité à la formulation rapide, ce qui souligne l'importance des stratégies rapides pour maximiser l'utilité des LLM.
Conclusions
Les LLM sont immenses et prometteurs en matière de raisonnement diagnostique efficace. Malgré les diagnostics réussis fournis par les LLM dans la présente étude, ces résultats ne doivent pas être interprétés comme indiquant que les LLM peuvent fournir des diagnostics sans la surveillance d'un clinicien.
À mesure que la recherche sur l’IA progresse et s’approche de l’intégration clinique, il deviendra encore plus important de mesurer de manière fiable les performances diagnostiques à l’aide des méthodes et des mesures d’évaluation les plus réalistes et cliniquement pertinentes.
L'intégration des LLM dans la pratique clinique nécessite des stratégies efficaces pour la conception d'invites structurées et la formation des médecins à l'utilisation d'invites détaillées, ce qui pourrait optimiser les performances des collaborations médecin-LLM en matière de diagnostic. Néanmoins, l'utilisation des LLM pour améliorer le raisonnement diagnostique implique l'utilisation de ces outils comme compléments, plutôt que comme remplacements, de l'expertise du médecin dans le processus de prise de décision clinique.