Les outils d’intelligence artificielle tels que ChatGPT ont été vantés pour leur promesse d’alléger la charge de travail des cliniciens en triant les patients, en prenant leurs antécédents médicaux et même en fournissant des diagnostics préliminaires.
Ces outils, appelés modèles en grand langage, sont déjà utilisés par les patients pour donner un sens à leurs symptômes et aux résultats de leurs tests médicaux.
Mais si ces modèles d’IA fonctionnent de manière impressionnante lors de tests médicaux standardisés, dans quelle mesure s’en sortent-ils dans des situations qui imitent plus fidèlement le monde réel ?
Pas si génial que ça, selon les conclusions d’une nouvelle étude menée par des chercheurs de la Harvard Medical School et de l’Université de Stanford.
Pour leur analyse, publiée le 2 janvier dans Médecine naturelleles chercheurs ont conçu un cadre d'évaluation – ; ou un test – ; appelé CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) et l'a déployé sur quatre modèles en grand langage pour voir dans quelle mesure ils ont fonctionné dans des contextes imitant fidèlement les interactions réelles avec les patients.
Les quatre modèles en langage large ont obtenu de bons résultats aux questions de type examen médical, mais leurs performances se sont détériorées lorsqu'ils étaient engagés dans des conversations imitant plus fidèlement les interactions du monde réel.
Selon les chercheurs, cette lacune souligne un double besoin : premièrement, créer des évaluations plus réalistes qui mesurent mieux l'adéquation des modèles cliniques d'IA à une utilisation dans le monde réel et, deuxièmement, améliorer la capacité de ces outils à établir des diagnostics. basés sur des interactions plus réalistes avant leur déploiement en clinique.
Selon l'équipe de recherche, des outils d'évaluation tels que CRAFT-MD peuvent non seulement évaluer plus précisément les modèles d'IA en fonction de la condition physique réelle, mais pourraient également aider à optimiser leurs performances en clinique.
Notre travail révèle un paradoxe frappant : alors que ces modèles d'IA excellent lors des examens médicaux, ils ont du mal à gérer les allers-retours de base d'une visite chez le médecin. La nature dynamique des conversations médicales – la nécessité de poser les bonnes questions au bon moment, de rassembler des informations éparses et de raisonner à travers les symptômes – pose des défis uniques qui vont bien au-delà de répondre à des questions à choix multiples. Lorsque nous passons des tests standardisés à ces conversations naturelles, même les modèles d’IA les plus sophistiqués montrent des baisses significatives de la précision du diagnostic. »
Pranav Rajpurkar, auteur principal de l'étude, professeur adjoint d'informatique biomédicale à la Harvard Medical School
Un meilleur test pour vérifier les performances réelles de l'IA
À l’heure actuelle, les développeurs testent les performances des modèles d’IA en leur demandant de répondre à des questions médicales à choix multiples, généralement dérivées de l’examen national des étudiants en médecine diplômés ou de tests administrés aux résidents en médecine dans le cadre de leur certification.
« Cette approche suppose que toutes les informations pertinentes soient présentées de manière claire et concise, souvent avec une terminologie médicale ou des mots à la mode qui simplifient le processus de diagnostic, mais dans le monde réel, ce processus est bien plus compliqué », a déclaré Shreya Johri, co-auteure de l'étude et doctorante. au laboratoire Rajpurkar de la Harvard Medical School. « Nous avons besoin d'un cadre de test qui reflète mieux la réalité et qui est donc mieux à même de prédire les performances d'un modèle. »
CRAFT-MD a été conçu pour être une de ces jauges plus réalistes.
Pour simuler des interactions réelles, CRAFT-MD évalue dans quelle mesure les modèles en langage large peuvent collecter des informations sur les symptômes, les médicaments et les antécédents familiaux, puis établir un diagnostic. Un agent IA est utilisé pour se faire passer pour un patient, répondant aux questions dans un style conversationnel et naturel. Un autre agent d'IA évalue l'exactitude du diagnostic final rendu par le modèle en grand langage. Les experts humains évaluent ensuite les résultats de chaque rencontre pour déterminer leur capacité à recueillir des informations pertinentes sur le patient, l'exactitude du diagnostic lorsqu'ils sont présentés avec des informations dispersées et le respect des invites.
Les chercheurs ont utilisé CRAFT-MD pour tester quatre modèles d'IA – ; à la fois propriétaires ou commerciaux et open source – ; pour sa performance dans 2 000 vignettes cliniques présentant des conditions courantes dans les soins primaires et dans 12 spécialités médicales.
Tous les modèles d’IA présentaient des limites, notamment dans leur capacité à mener des conversations cliniques et à raisonner sur la base des informations fournies par les patients. Cela a, à son tour, compromis leur capacité à recueillir des antécédents médicaux et à poser un diagnostic approprié. Par exemple, les modèles avaient souvent du mal à poser les bonnes questions pour recueillir les antécédents pertinents du patient, manquaient des informations critiques lors de l’anamnèse et éprouvaient des difficultés à synthétiser des informations dispersées. La précision de ces modèles a diminué lorsqu'on leur a présenté des informations ouvertes plutôt que des réponses à choix multiples. Ces modèles ont également eu de moins bons résultats lorsqu'ils étaient engagés dans des échanges aller-retour – ; comme le sont la plupart des conversations du monde réel – ; plutôt que lorsque vous êtes engagé dans des conversations résumées.
Recommandations pour optimiser les performances réelles de l'IA
Sur la base de ces résultats, l’équipe propose un ensemble de recommandations à la fois pour les développeurs d’IA qui conçoivent des modèles d’IA et pour les régulateurs chargés d’évaluer et d’approuver ces outils.
Ceux-ci incluent :
- Utilisation de questions conversationnelles ouvertes qui reflètent plus précisément les interactions médecin-patient non structurées dans la conception, la formation et les tests d’outils d’IA
- Évaluer les modèles pour leur capacité à poser les bonnes questions et à extraire les informations les plus essentielles
- Concevoir des modèles capables de suivre plusieurs conversations et d'en intégrer les informations
- Concevoir des modèles d'IA capables d'intégrer des données textuelles (notes de conversations) et non textuelles (images, ECG)
- Concevoir des agents d'IA plus sophistiqués capables d'interpréter des signaux non verbaux tels que les expressions faciales, le ton et le langage corporel
De plus, l’évaluation devrait inclure à la fois des agents d’IA et des experts humains, recommandent les chercheurs, car s’appuyer uniquement sur des experts humains demande beaucoup de travail et coûte cher. Par exemple, CRAFT-MD a devancé les évaluateurs humains, traitant 10 000 conversations en 48 à 72 heures, plus 15 à 16 heures d'évaluation par des experts. En revanche, les approches basées sur l’humain nécessiteraient un recrutement approfondi et environ 500 heures pour les simulations de patients (près de 3 minutes par conversation) et environ 650 heures pour les évaluations d’experts (près de 4 minutes par conversation). L’utilisation d’évaluateurs d’IA en première ligne présente l’avantage supplémentaire d’éliminer le risque d’exposer de vrais patients à des outils d’IA non vérifiés.
Les chercheurs ont déclaré qu’ils s’attendent à ce que CRAFT-MD lui-même soit également mis à jour et optimisé périodiquement pour intégrer des modèles patient-IA améliorés.
« En tant que médecin scientifique, je m'intéresse aux modèles d'IA qui peuvent augmenter la pratique clinique de manière efficace et éthique », a déclaré Roxana Daneshjou, co-auteure principale de l'étude, professeure adjointe de science des données biomédicales et de dermatologie à l'Université de Stanford. « CRAFT-MD crée un cadre qui reflète plus fidèlement les interactions du monde réel et contribue ainsi à faire avancer le domaine lorsqu'il s'agit de tester les performances des modèles d'IA dans les soins de santé. »