Dans une étude récente publiée dans la revue Radiologieles chercheurs ont évalué la précision diagnostique de quatre outils d’intelligence artificielle (IA) pour détecter l’épanchement pleural, les maladies de l’espace aérien et le pneumothorax sur des radiographies thoraciques.
La radiographie thoracique nécessite une formation et une expérience importantes pour une interprétation correcte. Des études ont évalué la capacité des modèles d’IA à analyser des radiographies thoraciques, conduisant au développement d’outils d’IA pour aider les radiologues. De plus, certains outils d’IA ont été approuvés et sont disponibles dans le commerce.
Des études évaluant l’IA en tant qu’outil d’aide à la décision pour les lecteurs humains ont signalé une amélioration des performances des lecteurs, en particulier parmi les lecteurs moins expérimentés. Néanmoins, l’utilisation clinique des outils d’IA pour le diagnostic radiologique en est à ses balbutiements. Bien que l’IA soit de plus en plus utilisée en radiologie, il existe un besoin urgent de l’évaluer dans des scénarios réels.
Étude : Outils d’IA de radiographie thoracique disponibles dans le commerce pour détecter les maladies de l’espace aérien, le pneumothorax et l’épanchement pleural. Crédit d’image : KELECHI5050/Shutterstock
À propos de l’étude
Dans la présente étude, les chercheurs ont évalué les outils commerciaux d’IA pour détecter les résultats aigus courants sur les radiographies thoraciques. Des patients uniques consécutifs âgés de 18 ans ou plus ayant reçu des radiographies thoraciques provenant de quatre hôpitaux ont été identifiés rétrospectivement. Seules les premières radiographies thoraciques des patients ont été incluses. Les radiographies ont été exclues si elles étaient 1) des doublons du même patient, 2) provenant d’hôpitaux non participants, 3) des images DICOM manquantes ou 4) une visualisation pulmonaire insuffisante.
Les radiographies ont été analysées pour rechercher une maladie de l’espace aérien, un épanchement pleural et un pneumothorax. Des radiologues thoraciques expérimentés, aveugles aux prédictions de l’IA, ont effectué l’évaluation standard de référence. Deux lecteurs ont étiqueté indépendamment les radiographies thoraciques. Les lecteurs avaient accès aux antécédents médicaux des patients, y compris leurs radiographies thoraciques ou tomodensitométries antérieures ou futures.
Un médecin qualifié a extrait les étiquettes des rapports de radiologie. L’évaluation de l’exactitude du diagnostic n’incluait pas les rapports jugés insuffisants pour l’extraction des étiquettes. Quatre fournisseurs d’IA [Annalise Enterprise CXR (vendor A), SmartUrgences (B), ChestEye (C), and AI-RAD Companion (D)] participé à l’étude.
Chaque outil d’IA a traité des radiographies thoraciques frontales et généré un score de probabilité pour les découvertes cibles. Les seuils de probabilité spécifiés par les fabricants ont été utilisés pour calculer les mesures binaires de précision du diagnostic. Trois outils utilisaient un seul seuil, tandis qu’un (fournisseur B) utilisait à la fois des seuils de sensibilité et de spécificité. Les outils d’IA n’ont pas été formés sur les données des hôpitaux participants.
Résultats
L’étude a inclus 2 040 patients (1 007 hommes et 1 033 femmes) avec un âge médian de 72 ans. Parmi eux, 67,2 % n’avaient pas de résultats cibles, tandis que le reste avait au moins un résultat cible. Huit et deux patients n’ont reçu aucune sortie d’IA des fournisseurs A et C, respectivement. La plupart des patients ont subi des tomodensitométries ou des radiographies thoraciques antérieures ou futures. Près de 60 % des patients présentaient ≥ 2 résultats et 31,7 % présentaient ≥ 4 résultats sur les radiographies thoraciques.
Une maladie de l’espace aérien, des épanchements pleuraux et un pneumothorax ont été identifiés respectivement sur 393, 78 et 365 radiographies thoraciques lors de l’examen standard de référence. Un tube de drainage intercostal était présent chez 33 patients. Les sensibilités et spécificités des outils d’IA étaient de 72 % à 91 % et de 62 % à 86 % pour les maladies de l’espace aérien, de 62 % à 95 % et de 83 % à 97 % pour l’épanchement pleural, et de 63 % à 90 % et de 98 % à 100 % pour pneumothorax, respectivement.
Les valeurs prédictives négatives sont restées élevées (92 % à 100 %) dans tous les résultats, tandis que les valeurs prédictives positives étaient inférieures et variables (36 % à 86 %). Les sensibilités, les spécificités et les valeurs prédictives négatives et positives différaient pour des résultats cibles similaires selon l’outil d’IA. Soixante-douze lecteurs de différentes sous-spécialités de radiologie ont validé au moins une radiographie thoracique.
Le taux de faux négatifs pour les maladies de l’espace aérien n’était pas différent entre les rapports de radiologie clinique et les outils d’IA, sauf lorsque le seuil de sensibilité du fournisseur B était utilisé. Cependant, les outils d’IA présentaient un taux de faux positifs pour les maladies de l’espace aérien plus élevé que les rapports de radiologie. De même, le taux de faux négatifs pour le pneumothorax ne différait pas entre les rapports de radiologie et les outils d’IA, sauf lorsque le seuil de spécificité du fournisseur B était utilisé.
Les outils d’IA présentaient un taux de faux positifs pour le pneumothorax plus élevé que les rapports de radiologie, sauf lorsque le seuil de spécificité du fournisseur B était utilisé. Le fournisseur A présentait un taux de faux négatifs inférieur à celui des rapports de radiologie pour l’épanchement pleural ; les fournisseurs B et C avaient des taux plus élevés que les rapports de radiologie. Trois outils présentaient un taux plus élevé et un avait un taux de faux positifs pour l’épanchement pleural inférieur à celui des rapports de radiologie.
Conclusions
Pris ensemble, les résultats suggèrent que les outils d’IA avaient une sensibilité modérée à élevée et des valeurs prédictives négatives remarquables pour identifier l’épanchement pleural, la maladie de l’espace aérien et le pneumothorax sur les radiographies thoraciques. Cependant, leurs valeurs prédictives positives étaient variables et inférieures, et les taux de faux positifs étaient supérieurs à ceux des rapports radiologiques.
La spécificité des outils a diminué pour les radiographies thoraciques et les radiographies thoraciques antéropostérieures, avec de multiples résultats de maladie de l’espace aérien et d’épanchement pleural par rapport à ceux avec un seul résultat. En outre, notamment, de nombreuses erreurs commises par l’IA seraient impossibles ou problématiques à identifier pour les lecteurs sans avoir accès à des images supplémentaires ou à l’historique du patient.