Précision diagnostique du GPT-4 en radiologie des tumeurs cérébrales

Une nouvelle étude révèle que GPT-4 correspond aux radiologues dans le diagnostic des tumeurs cérébrales à partir des rapports d'IRM, avec une précision impressionnante dans les diagnostics différentiels.

Étude: Analyse comparative des performances diagnostiques de ChatGPT basé sur GPT-4 avec des radiologues utilisant des rapports radiologiques réels de tumeurs cérébrales. Crédit d’image : raker/Shutterstock.com

Une étude récente publiée dans European Radiology a comparé les performances diagnostiques du Generative Pretrained Transformer 4 (GPT-4) avec celles des radiologues utilisant des rapports sur les tumeurs cérébrales.

Sommaire

Arrière-plan

Les modèles en langage large (LLM) ont dominé le discours technologique mondial. L'avènement de ChatGPT a simplifié l'utilisation de ces modèles de manière conversationnelle. Parmi les LLM, la série GPT a particulièrement retenu l'attention ; son potentiel de diagnostic à partir d’une image est remarquable.

Deux études ont démontré le potentiel du GPT-4 dans le diagnostic différentiel en neuroradiologie. Bien que ces études suggèrent un rôle vital du GPT-4 dans le diagnostic radiologique, aucune étude n'a été évaluée à l'aide de rapports radiologiques réels.

À propos de l'étude

Dans la présente étude, les chercheurs ont examiné la capacité diagnostique du GPT-4 à l’aide de rapports radiologiques réels. ChatGPT (basé sur GPT-4) a reçu des résultats d'imagerie issus de rapports réels et a été invité à fournir des diagnostics finaux et différentiels.

À titre de comparaison, les mêmes résultats ont été présentés aux radiologues. Quatre radiologues généralistes et trois neuroradiologues y ont participé. Les radiologues généralistes se spécialisent dans des domaines autres que le diagnostic par imagerie.

Un radiologue généraliste et un neuroradiologue ont examiné les résultats recueillis, tandis que d'autres ont effectué des tests de lecture. Les résultats de l'imagerie par résonance magnétique cérébrale (IRM) des tumeurs préopératoires ont été recueillis auprès de deux institutions.

Les résultats de l'imagerie ont été vérifiés par un radiologue généraliste et un neuroradiologue. Les diagnostics décrits dans les résultats d'imagerie ont été supprimés, mais les informations sur le type de rapporteur (radiologue généraliste ou neuroradiologue) ont été conservées.

Les rapports d'IRM ont été traduits du japonais vers l'anglais. ChatGPT a été invité à fournir trois diagnostics possibles à l’aide des résultats de l’imagerie. Le diagnostic le plus élevé parmi les trois était considéré comme le diagnostic final.

Les mêmes résultats d'imagerie ont été fournis à deux neuroradiologues et à trois radiologues généralistes ; ces experts étaient différents de ceux qui ont fourni des rapports de contribution.

Les interprétations des radiologues et les résultats du LLM ont été évalués par rapport au diagnostic pathologique de la tumeur. Le test de McNemar a comparé l'exactitude diagnostique des diagnostics différentiels et finaux entre GPT-4 et chaque radiologue.

De plus, des analyses distinctes ont été effectuées selon que le rapport d'entrée était préparé par un radiologue généraliste ou un neuroradiologue. Le test exact de Fisher a comparé la précision du diagnostic entre GPT-4 et tous les radiologues.

Résultats

Au total, 150 rapports de radiologie ont été inclus ; 94 étaient des sujets féminins. Les pathologies comprenaient, entre autres, le méningiome, l'adénome hypophysaire, l'angiome, le schwannome, le gliome de haut et de bas grade, le sarcome, le lymphome et l'hémangioblastome. La précision du diagnostic final était comparable entre GPT-4 et les radiologues.

Le taux d'exactitude du GPT-4 pour le diagnostic final était de 73 % ; en comparaison, les taux d'exactitude étaient de 65 % pour un neuroradiologue et deux radiologues généralistes, de 73 % pour un neuroradiologue et de 79 % pour un radiologue généraliste. De plus, GPT-4 a atteint une précision de 94 % pour les diagnostics différentiels par rapport aux radiologues, dont les précisions variaient de 73 % à 89 %.

Notamment, GPT-4 a montré des différences statistiquement significatives dans les diagnostics finaux lorsqu'un radiologue généraliste et un neuroradiologue préparaient les résultats d'imagerie. Ses taux de précision pour le diagnostic final étaient respectivement de 80 % et 60 % lorsque le rapporteur était neuroradiologue et radiologue généraliste.

Conclusions

L'étude a comparé les performances diagnostiques du GPT-4 et de cinq radiologues en utilisant les résultats de l'IRM cérébrale de 150 cas. GPT-4 était précis à 73 % dans l'énumération du diagnostic final, tandis que la précision des radiologues variait entre 65 % et 79 %.

Sa précision était de 94 % pour le diagnostic différentiel, tandis que les radiologues atteignaient une précision de 73 à 89 %. Notamment, GPT-4 avait une précision significativement plus élevée pour le diagnostic final lorsqu'un neuroradiologue préparait les rapports d'entrée.

Cependant, il n’y avait pas de différences significatives pour les diagnostics différentiels, quel que soit le type de déclarant. L'étude a utilisé uniquement des informations textuelles et n'a pas évalué l'effet de l'inclusion d'autres informations, telles que des images IRM et les antécédents du patient. De plus, les performances de GPT-4 ont été évaluées dans une seule langue ; la façon dont cela varie dans les différentes langues reste inconnue.