GPT-4 bat les médecins humains en termes de soft skills médicales

Dans une étude récente publiée dans la revue Scientific Reports, des chercheurs ont évalué les performances de Generative Pre-trained Transformer-4 (GPT-4) et ChatGPT dans le cadre du Medical Licensing Examination (USMLE) des États-Unis.

L’intelligence artificielle (IA) est de plus en plus utilisée dans la pratique médicale. Les grands modèles de langage (LLM), tels que GPT-4 et ChatGPT, ont attiré une attention scientifique considérable, avec de multiples études évaluant leurs performances en médecine. Bien que les LLM soient compétents dans diverses tâches, leurs performances dans des domaines qui nécessitent le jugement humain et l’empathie doivent encore être étudiées.

L’USMLE mesure l’acuité cognitive, les connaissances médicales, la capacité à naviguer dans des scénarios complexes, la sécurité des patients et les jugements (professionnels, éthiques et juridiques). L’USME Step 2 Clinical Skills, le test standard pour l’évaluation des compétences interpersonnelles et de communication, a été interrompu en raison de la pandémie de maladie à coronavirus 2019 (COVID-19). Néanmoins, les principaux éléments de communication clinique ont été intégrés à d’autres étapes de l’USMLE.

Les scores USMLE Step 2 Clinical Knowledge (CK) prédisent les performances dans tous les domaines de performance, tels que la communication, le professionnalisme, le travail d’équipe et les soins aux patients. L’empathie cognitive artificielle est un domaine d’intérêt émergent. Comprendre la capacité de l’IA à percevoir et à répondre avec précision aux états émotionnels des patients sera particulièrement pertinent dans les soins centrés sur le patient et la télémédecine.

Étude : Comparaison des performances de ChatGPT et de GPT-4 dans les évaluations de compétences générales USMLE. Crédit d’image : Vecteur de Tex/Shutterstock

À propos de l’étude

Dans la présente étude, les chercheurs ont évalué les performances de GPT-4 et ChatGPT dans des questions USMLE impliquant le jugement humain, l’empathie et d’autres compétences générales. Ils ont utilisé 80 questions conçues pour répondre aux exigences de l’USMLE, compilées à partir de deux sources. La première source était les exemples de questions USMLE pour les étapes 1, 2, CK et 3, disponibles sur son site officiel.

Des exemples de questions de test ont été examinés et 21 questions ont été sélectionnées, qui nécessitent du professionnalisme, des compétences interpersonnelles et de communication, des compétences culturelles, du leadership, un comportement organisationnel et des questions juridiques/éthiques. Les questions nécessitant des connaissances médicales ou scientifiques n’ont pas été sélectionnées.

Cinquante-neuf questions de type Étape 1, Étape 2, CK et Étape 3 ont été identifiées à partir de la deuxième source, AMBOSS, une banque de questions destinée aux étudiants et aux médecins. Les modèles d’IA étaient chargés de répondre à toutes les questions. La structure de l’invite comprenait le texte de la question et les réponses à choix multiples.

Après que les modèles ont répondu, ils ont été suivis par : « Êtes-vous sûr ? » tester la stabilité et la cohérence du modèle et déclencher une éventuelle réévaluation de ses réponses initiales. Si les modèles révisaient leurs réponses, cela pourrait indiquer une certaine incertitude. Les performances des modèles d’IA et des humains ont été comparées à l’aide des statistiques de performances des utilisateurs d’AMBOSS.

Résultats

La précision globale de ChatGPT était de 62,5 %. Il était précis à 66,6 % pour l’échantillon de test USMLE et à 61 % pour les questions AMBOSS. GPT-4 a montré des performances supérieures, atteignant une précision globale de 90 %. GPT-4 a répondu au test d’échantillon USMLE avec une précision de 100 % ; cependant, sa précision pour les questions AMBOSS était de 86,4 %. Que la réponse initiale soit correcte ou non, GPT-4 n’a jamais modifié sa réponse lorsqu’il a été invité à réévaluer sa réponse initiale.

ChatGPT a révisé ses réponses initiales pour 82,5 % des questions lorsqu’on lui a demandé. Lorsque ChatGPT a modifié les réponses incorrectes initiales, il a rectifié l’erreur, produisant des réponses correctes dans 53,8 % du temps. Les statistiques des utilisateurs d’AMBOSS ont révélé que le taux moyen de réponses correctes était de 78 % pour les questions exactes utilisées dans cette étude. En comparaison, ChatGPT avait des performances inférieures à celles des humains, mais GPT-4 a montré des performances supérieures, atteignant respectivement une précision de 61 % et 86,4 %.

Conclusions

En résumé, les chercheurs ont testé les performances des modèles d’IA, GPT-4 et ChatGPT, sur des questions de compétences générales de l’USLME, notamment le jugement, l’éthique et l’empathie. Les deux modèles ont répondu correctement à la plupart des questions. Cependant, les performances de GPT -4 étaient supérieures à celles de ChatGPT, car il répondait avec précision à 90 % des questions, contre une précision de 62,5 % pour ChatGPT. Contrairement à ChatGPT, GPT-4 a fait preuve de confiance dans ses réponses et n’a jamais révisé sa réponse originale.

En revanche, ChatGPT a démontré sa confiance dans 17,5 % des questions. Les résultats montrent que les LLM produisent des résultats impressionnants dans les questions testant les compétences générales requises par les médecins. Ils indiquent que GPT-4 est plus capable de répondre efficacement aux questions nécessitant professionnalisme, jugement éthique et empathie. La tendance de ChatGPT à réviser ses réponses initiales pourrait suggérer une conception mettant l’accent sur la flexibilité et l’adaptabilité, favorisant diverses interactions.

En revanche, la cohérence de GPT-4 pourrait indiquer son mécanisme d’échantillonnage robuste ou sa formation prédisposée à la stabilité. De plus, GPT-4 a également surpassé les performances humaines. Notamment, le mécanisme de réévaluation appliqué dans cette étude peut ne pas refléter la compréhension cognitive humaine de l’incertitude, car les modèles d’IA fonctionnent selon des probabilités calculées plutôt que selon une confiance humaine.