Un outil commercial d'intelligence artificielle (IA) utilisé hors indication s'est avéré efficace pour exclure une pathologie et présentait des taux d'échecs critiques sur la radiographie thoracique égaux ou inférieurs à ceux des radiologues, selon une étude publiée aujourd'hui dans Radiologieune revue de la Radiological Society of North America (RSNA).
Les développements récents de l’IA ont suscité un intérêt croissant pour le diagnostic assisté par ordinateur, en partie motivé par la charge de travail croissante à laquelle sont confrontés les services de radiologie, la pénurie mondiale de radiologues et le risque d’épuisement professionnel dans ce domaine. Les cabinets de radiologie ont un volume élevé de radiographies thoraciques sans particularité (sans résultat clinique significatif), et l’IA pourrait éventuellement améliorer le flux de travail en fournissant un rapport automatique.
Des chercheurs danois ont cherché à estimer la proportion de radiographies thoraciques sans particularités pour lesquelles l'IA pouvait correctement exclure une pathologie sans augmenter les erreurs de diagnostic. L'étude comprenait des rapports de radiologie et des données de 1 961 patients (âge médian, 72 ans ; 993 femmes), avec une radiographie thoracique par patient, obtenues dans quatre hôpitaux danois.
Notre groupe et d'autres ont déjà montré que les outils d'IA sont capables d'exclure avec une grande confiance la pathologie des radiographies thoraciques et de fournir ainsi un rapport normal autonome sans intervention humaine. De tels algorithmes d'IA passent à côté de très peu de radiographies thoraciques anormales. Cependant, avant notre étude actuelle, nous ne savions pas quel était le seuil approprié pour ces modèles.
Louis Lind Plesner, MD, auteur principal du service de radiologie de l'hôpital Herlev et Gentofte de Copenhague, Danemark
L’équipe de recherche voulait savoir si la qualité des erreurs commises par l’IA et les radiologues était différente et si les erreurs de l’IA sont, en moyenne, objectivement pires que les erreurs humaines.
L'outil d'IA a été adapté pour générer une probabilité de « remarquabilité » d'une radiographie thoracique, qui a été utilisée pour calculer la spécificité (une mesure de la capacité d'un test médical à identifier correctement les personnes qui ne sont pas atteintes d'une maladie) à différentes sensibilités d'IA.
Deux radiologues thoraciques, qui ne connaissaient pas les résultats de l'IA, ont qualifié les radiographies thoraciques de « remarquables » ou « banales » en fonction de résultats prédéfinis non remarquables. Les radiographies thoraciques dont les résultats n'avaient pas été pris en compte par l'IA et/ou le rapport de radiologie ont été classées par un radiologue thoracique – sans savoir si l'erreur avait été commise par l'IA ou le radiologue – comme critiques, cliniquement significatives ou cliniquement insignifiantes.
La norme de référence a classé 1 231 radiographies thoraciques sur 1 961 (62,8 %) comme remarquables et 730 sur 1 961 (37,2 %) comme non remarquables. L'outil d'IA a correctement exclu la pathologie dans 24,5 % à 52,7 % des radiographies thoraciques non remarquables avec une sensibilité supérieure ou égale à 98 %, avec des taux d'échecs critiques inférieurs à ceux constatés dans les rapports de radiologie associés aux images.
Le Dr Plesner note que les erreurs commises par l’IA étaient, en moyenne, cliniquement plus graves pour le patient que les erreurs commises par les radiologues.
« Cela est probablement dû au fait que les radiologues interprètent les résultats en fonction du scénario clinique, ce que ne fait pas l’IA », a-t-il déclaré. « Par conséquent, lorsque l’IA est censée fournir un rapport normal automatisé, elle doit être plus sensible que le radiologue pour éviter de diminuer la qualité des soins lors de la mise en œuvre. Cette découverte est également généralement intéressante à l’ère des capacités de l’IA couvrant de multiples environnements à enjeux élevés, qui ne se limitent pas uniquement aux soins de santé. »
Selon le Dr Plesner, l'IA pourrait signaler de manière autonome plus de la moitié de toutes les radiographies thoraciques normales. « Dans notre population d'étude en milieu hospitalier, cela signifie que plus de 20 % de toutes les radiographies thoraciques auraient pu être potentiellement signalées de manière autonome en utilisant cette méthodologie, tout en conservant un taux d'erreurs cliniquement pertinentes inférieur à la norme actuelle », a-t-il déclaré.
Le Dr Plesner a souligné qu’une mise en œuvre prospective du modèle utilisant l’un des seuils suggérés dans l’étude est nécessaire avant qu’un déploiement à grande échelle puisse être recommandé.
« Utilisation de l'IA pour identifier les radiographies thoraciques banales en vue de la création automatique de rapports. » Le Dr Plesner a collaboré avec le Dr Felix C. Müller, le Dr Mathias W. Brejnebøl, le Dr Christian Hedeager Krag, le Dr Lene C. Laustrup, le Dr Finn Rasmussen, le Dr DMSc., le Dr Olav Wendelboe Nielsen, le Dr Mikael Boesen, le Dr Ph.D. et le Dr Michael B. Andersen.