Les chercheurs qui ont évalué les performances de ChatGPT-4 Vision ont constaté que le modèle fonctionnait bien sur les questions d'examen de radiologie basées sur du texte, mais avait du mal à répondre avec précision aux questions liées à l'image. Les résultats de l'étude ont été publiés aujourd'hui dans Radiologieune revue de la Radiological Society of North America (RSNA).
Chat GPT-4 Vision est la première version du grand modèle de langage capable d'interpréter à la fois du texte et des images.
ChatGPT-4 s'est révélé prometteur pour aider les radiologues dans des tâches telles que la simplification des rapports radiologiques destinés aux patients et l'identification du protocole approprié pour les examens d'imagerie. Grâce à ses capacités de traitement d'images, GPT-4 Vision permet de nouvelles applications potentielles en radiologie.
Dr Chad Klochko, radiologue musculo-squelettique et chercheur en intelligence artificielle (IA) à Henry Ford Health à Détroit, Michigan
Pour l'étude, l'équipe de recherche du Dr Klochko a utilisé des questions retirées des examens de formation en radiologie diagnostique de l'American College of Radiology, une série de tests utilisés pour évaluer les progrès des résidents en radiologie. Après avoir exclu les doublons, les chercheurs ont utilisé 377 questions dans 13 domaines, dont 195 questions contenant uniquement du texte et 182 qui contenaient une image.
GPT-4 Vision a répondu correctement à 246 des 377 questions, obtenant un score global de 65,3 %. Le modèle a répondu correctement à 81,5 % (159) des 195 questions contenant uniquement du texte et à 47,8 % (87) des 182 questions contenant des images.
« La précision de 81,5 % pour les questions textuelles reflète les performances du modèle prédécesseur », a-t-il déclaré. « Cette cohérence dans les questions textuelles peut suggérer que le modèle possède un certain degré de compréhension textuelle en radiologie. »
La radiologie génito-urinaire était la seule sous-spécialité pour laquelle GPT-4 Vision a obtenu de meilleurs résultats aux questions avec images (67 %, soit 10 sur 15) qu'aux questions avec texte seul (57 %, soit 4 sur 7). Le modèle a obtenu de meilleurs résultats aux questions avec texte seul dans toutes les autres sous-spécialités.
Le modèle a obtenu les meilleurs résultats aux questions basées sur des images dans les sous-spécialités thoraciques et génito-urinaires, répondant correctement à 69 % et 67 % des questions contenant des images, respectivement. Le modèle a obtenu les résultats les plus faibles aux questions contenant des images dans le domaine de la médecine nucléaire, répondant correctement à seulement 2 questions sur 10.
L’étude a également évalué l’impact de diverses invites sur les performances de GPT-4 Vision.
- Original : Vous passez un examen de radiologie. Des images des questions seront téléchargées. Choisissez la bonne réponse pour chaque question.
- De base : Choisissez la meilleure réponse à la question suivante de l'examen du conseil de radiologie à la retraite.
- Instructions brèves : il s'agit d'une question d'examen de radiologie à la retraite destinée à évaluer vos connaissances médicales. Choisissez la lettre de réponse la plus appropriée et ne fournissez aucune justification pour votre réponse.
- Instructions détaillées : Vous êtes un radiologue diagnostique certifié qui passe un examen. Évaluez soigneusement chaque question et si la question contient en plus une image, veuillez évaluer l'image avec soin afin de répondre à la question. Votre réponse doit inclure un seul choix de réponse optimal. L'absence de choix de réponse sera considérée comme incorrecte.
- Chaîne de pensée : vous passez un examen de fin d'études à des fins de recherche. Compte tenu de l'image fournie, réfléchissez étape par étape à la question fournie.
Bien que le modèle ait répondu correctement à 183 questions sur 265 avec une invite de base, il a refusé de répondre à 120 questions, dont la plupart contenaient une image.
« Le phénomène de refus de répondre aux questions était quelque chose que nous n'avions pas observé lors de notre exploration initiale du modèle », a déclaré le Dr Klochko.
L'invite d'instructions courtes a donné la précision la plus faible (62,6 %).
En ce qui concerne les questions basées sur des textes, les instructions de type chaîne de pensée ont surpassé les instructions longues de 6,1 %, les instructions de base de 6,8 % et les instructions de type original de 8,9 %. Rien ne permet de penser qu'il existe des différences de performance entre deux instructions sur des questions basées sur des images.
« Notre étude a mis en évidence des réactions hallucinatoires lors de l'interprétation des résultats d'images », a déclaré le Dr Klochko. « Nous avons noté une tendance alarmante du modèle à fournir des diagnostics corrects sur la base d'interprétations d'images incorrectes, ce qui pourrait avoir des implications cliniques importantes. »
Le Dr Klochko a déclaré que les résultats de son étude soulignent la nécessité de méthodes d’évaluation plus spécialisées et plus rigoureuses pour évaluer les performances des grands modèles de langage dans les tâches de radiologie.
« Compte tenu des défis actuels liés à l’interprétation précise des images radiologiques clés et de la tendance aux réactions hallucinatoires, l’applicabilité de GPT-4 Vision dans les domaines critiques en matière d’information tels que la radiologie est limitée dans son état actuel », a-t-il déclaré.
« Performances du GPT-4 avec Vision sur les questions d'examen de formation en radiologie diagnostique ACR basées sur du texte et des images. » Le Dr Nolan Hayden, le Dr Spencer Gilbert, le Dr Laila M. Poisson et le Dr Brent Griffith ont collaboré avec le Dr Klochko