Une étude récente publiée dans L’anglais Journal médical testé si l’intelligence artificielle (IA) pouvait réussir l’examen pour le Fellowship du Royal College of Radiologists (FRCR).
Les radiologues du Royaume-Uni (UK) doivent réussir l’examen FRCR avant de terminer leur formation. En supposant que l’IA puisse réussir le même test, elle pourrait remplacer les radiologues. L’examen FRCR final comporte trois volets et les candidats doivent obtenir une note de passage dans chaque volet pour réussir l’examen dans son ensemble.
Dans la composante de rapport rapide, les candidats doivent analyser et interpréter 30 radiographies en 35 minutes et rapporter correctement au moins 90 % de celles-ci pour réussir cette partie de l’examen. Cette session évalue les candidats en termes de précision et de rapidité. Il existe un argument suggérant que l’IA excellerait dans la précision, la vitesse, les radiographies et les résultats binaires. En tant que tel, la session de rapport rapide de l’examen FRCR peut être un cadre idéal pour tester les prouesses de l’IA.
Étudier: L’intelligence artificielle peut-elle réussir l’examen Fellowship du Royal College of Radiologists ? Étude de la précision du diagnostic multi-lecteurs. Crédit d’image : SquareMotion / Shutterstock
À propos de l’étude
Dans la présente étude, les chercheurs ont évalué si un candidat à l’IA peut réussir l’examen FRCR et surpasser les radiologues humains passant le même examen. Les auteurs ont utilisé 10 examens simulés du FRCR à des fins d’analyse puisque le RCR a nié avoir partagé des cas d’examen de rapport rapide du FRCR retirés. Les radiographies ont été sélectionnées, reflétant le même niveau de difficulté qu’un examen réel.
Chaque examen blanc comprenait 30 radiographies, couvrant toutes les parties du corps d’adultes et d’enfants ; environ la moitié contenait une pathologie et les autres ne présentaient aucune anomalie. Les anciens candidats FRCR (lecteurs radiologues) qui ont réussi l’examen FRCR au cours des 12 derniers mois ont été recrutés via les médias sociaux, le bouche à oreille et le courrier électronique.
Les lecteurs radiologues ont répondu à une courte enquête qui a recueilli des informations sur la démographie et les précédentes tentatives d’examen FRCR. Des radiographies anonymisées ont été fournies via une plateforme de visualisation d’images en ligne (imagerie numérique et communications en médecine, DICOM). Les radiologues disposaient d’un mois (mai 2022) pour enregistrer leurs interprétations de dix examens blancs sur une feuille en ligne.
Les radiologues ont évalué 1) la représentativité des examens simulés par rapport à l’examen FRCR réel, 2) leur performance et 3) la performance qu’ils pensaient de l’IA. De même, 300 radiographies anonymisées ont été fournies au candidat à l’IA appelé Smarturgences, développé par Milvue, une société française d’IA.
L’outil d’IA n’était pas certifié pour analyser les radiographies du squelette abdominal et axial ; encore, il a été fourni avec ces radiographies pour l’équité entre les participants. Le score de l’outil d’IA a été calculé de quatre manières. Dans le premier scénario, seules les radiographies interprétables par l’IA ont été notées, à l’exclusion des radiographies non interprétables. Les radiographies non interprétables ont été notées comme normales, anormales et fausses dans les deuxième, troisième et quatrième scénarios.
Résultats
Au total, 26 radiologues, dont 16 femmes, ont été recrutés et la plupart des participants étaient âgés de 31 à 40 ans. Seize radiologues ont terminé leur examen FRCR au cours des trois derniers mois. La plupart des participants ont réussi l’examen FRCR dès leur première tentative. L’outil d’IA aurait réussi deux examens blancs dans le premier scénario. Dans le scénario 2, l’IA aurait réussi un examen simulé.
Dans les scénarios 3 et 4, le candidat IA aurait échoué à l’examen. La sensibilité, la spécificité et la précision globales pour l’IA étaient de 83,6 %, 75,2 % et 79,5 % dans le scénario 1. Pour les radiologues, les estimations sommaires de la sensibilité, de la spécificité et de la précision étaient de 84,1 %, 87,3 % et 84,8 %, respectivement. AI a été le candidat le plus performant dans un examen, mais s’est classé avant-dernier au classement général.
En supposant que des critères de notation stricts reflètent le mieux l’examen réel, ce qui était le cas dans le scénario 4, la sensibilité, la spécificité et la précision globales de l’IA s’élevaient à 75,2 %, 62,3 % et 68,7 %, respectivement. En comparaison, les estimations sommaires des radiologues de la sensibilité, de la spécificité et de l’exactitude étaient de 84 %, 87,5 % et 85,2 %, respectivement.
Aucun radiologue n’a réussi tous les examens blancs. Le radiologue le mieux classé a réussi neuf examens simulés, tandis que les trois radiologues les moins bien classés n’en ont réussi qu’un. En moyenne, les radiologues pouvaient réussir quatre examens blancs. Les radiologues ont évalué les examens simulés légèrement plus complexes que l’examen FRCR. Ils ont évalué leurs performances de 5,8 à 7,0 sur une échelle de type Likert en 10 points et les performances de l’IA entre 6 et 6,6.
Les chercheurs disent : « À cette occasion, le candidat à l’intelligence artificielle n’a réussi aucun des 10 examens simulés lorsqu’il a été noté selon des critères aussi stricts que ses homologues humains, mais il pourrait réussir deux des examens simulés si une dispense spéciale était accordée par le RCR pour exclure les images sur lesquelles il n’a pas été formé.
Sur les 42 radiographies non interprétables de l’ensemble de données, le candidat IA a donné un résultat pour une, mal étiquetée comme pneumothorax basal sur une radiographie abdominale normale. Plus de la moitié des radiologues ont diagnostiqué à tort 20 radiographies ; parmi celles-ci, l’outil d’IA a mal diagnostiqué 10 radiographies mais a correctement interprété les autres. Au total, presque tous les radiologues ont correctement analysé 148 radiographies, dont 134 ont également été correctement interprétées par le candidat IA.
conclusion
En résumé, AI a réussi deux examens blancs lorsque la dispense spéciale a été accordée, à savoir l’exclusion des images non interprétables. Cependant, AI n’en passerait aucun si la dispense n’était pas accordée. Bien que l’IA n’ait pas surpassé les radiologues, sa précision est restée élevée, compte tenu de la complexité et de la diversité des cas.
De plus, l’IA s’est classée au premier rang dans un examen simulé, surpassant trois radiologues. Notamment, l’IA a correctement diagnostiqué la moitié des radiographies, ce que ses pairs humains ont mal interprété. Néanmoins, le candidat IA a encore besoin de plus de formation pour atteindre des performances et des compétences au même niveau qu’un radiologue moyen, en particulier pour les cas non interprétables par l’IA.