Dans une étude récente publiée dans Rapports scientifiques, les chercheurs évaluent et discutent des limites des radiographies pulmonaires (CXR) partagées via des applications pour smartphones.
Dans le contexte de la pandémie de la maladie à coronavirus 2019 (COVID-19), les chercheurs mettent en valeur les avantages des outils de diagnostic clinique automatisés développés à l’aide de modèles d’intelligence artificielle (IA) tout en élucidant également leurs inconvénients, notamment lors de l’analyse d’images hautement compressées. L’apprentissage multitâche (MTL) a également été introduit comme approche pour surmonter les défis actuels associés aux modèles d’IA.
Étude: Défis du diagnostic basé sur l’IA des radiographies pulmonaires transmises via les téléphones intelligents : une étude de cas sur le COVID-19. Crédit d’image : ShutterOk/Shutterstock.com
L’IA dans le diagnostic du COVID-19
Avant le développement des kits de tests de diagnostic clinique du COVID-19, le CXR était l’évaluation de triage de première intention de la maladie. Cependant, en raison de la propagation sans précédent du coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2), le nombre limité de radiologues disponibles dans le monde a été rapidement dépassé, en particulier dans les pays à revenu faible ou intermédiaire (PRFI) et les zones rurales. .
Pour alléger ce fardeau pour les radiologues, des systèmes centralisés basés sur l’IA ont été conceptualisés pour automatiser le diagnostic du COVID-19 à partir d’images CXR. Les progrès des capacités matérielles des smartphones et leur pénétration accrue, même dans les PRFI, ont fait des smartphones le support idéal pour mettre en œuvre ces modèles d’IA. Les smartphones récents incluent des caméras haute résolution et sensibles aux couleurs, dont la recherche a montré qu’elles sont suffisantes pour un diagnostic précis du COVID-19 par des radiologues qualifiés.
Un autre avantage des smartphones est l’inclusion d’applications de messagerie multimédia, notamment WhatsApp et Telegram. Ces plateformes de messagerie permettent de partager des images à distance, facilitant ainsi les diagnostics même sans radiologue local. En gardant à l’esprit ces fonctionnalités des smartphones, plusieurs systèmes d’IA de diagnostic du COVID-19 ont été lancés, appelés « Diagnostic assisté par IA des images radiographiques via des applications de messagerie » (AIDXA).
Alors que les systèmes AIDXA ont été conçus pour tenir compte de la faible disponibilité de bande passante dans les zones rurales, certains systèmes comme l’indien XraySetu étant capables de s’interfacer directement avec WhatsApp, une limitation de ces applications est la perte de données due à la compression d’image. Bien qu’elle n’ait aucun effet notable sur les diagnostics des radiologues experts, des preuves limitées suggèrent que la compression d’images peut altérer considérablement les performances diagnostiques de l’IA.
À propos de l’étude
Dans la présente étude, les chercheurs présentent d’abord une étude de cas pour définir et illustrer les deux principales limites des systèmes AIDXA actuels dans le diagnostic du COVID-19. Ils développent ensuite une base de données interne d’images COVID-19 pour évaluer quantitativement les effets de la compression d’images sur les performances du modèle AIDXA. Enfin, ils décrivent, conçoivent et entraînent un nouveau modèle d’apprentissage multitâche visant à un diagnostic précis du COVID-19, même dans des conditions de compression d’images.
Malgré les avantages des systèmes AIDXA dans l’automatisation du diagnostic du COVID-19, répondant ainsi en partie à la pénurie mondiale de radiologues humains experts, l’étude actuelle identifie « l’instabilité de prédiction » (PIP) et la « saillance pulmonaire » (OLS) comme de graves limitations de ces systèmes. Systèmes d’IA.
Pour évaluer les performances du modèle actuel, un nouvel ensemble de données d’images CXR appelé « WhatsApp CXR » (WaCXR) a été développé. L’ensemble de données comprenait 6 562 images JPEG CXR de la base de données COVID-Net, transmises via la compression WhatsApp, ce qui a abouti à 6 562 paires d’images compressées et non compressées visuellement presque identiques.
L’instabilité des prédictions est le manque de congruence dans les prédictions du modèle entre les images CXR compressées et non compressées. Alors qu’un modèle peut identifier un patient comme positif au COVID-19 sur la base d’images CXR non compressées, le même modèle peut classer le patient comme négatif au COVID-19 lorsque la même image CXR a été soumise à une compression WhatsApp. Ce manque de congruence dans les applications médicales représente un défaut potentiellement fatal, rendant les prédictions peu fiables.
Les recherches sur l’apprentissage automatique suggèrent que les performances prédictives élevées des modèles d’apprentissage profond peuvent être attribuées en partie à leur apprentissage involontaire de stratégies de raccourci. Bien qu’utile dans certaines applications de l’IA, cela représente un défi important dans le domaine médical, où des prédictions explicables et reproductibles sont impératives.
L’étude actuelle utilise des cartes de saillance, qui sont des algorithmes qui identifient les régions d’une image contribuant aux prédictions du modèle, pour évaluer les prédictions pathologiques des modèles AIDXA actuels. Les résultats de la carte de saillance suggèrent que les prédictions COVID-19 de plusieurs modèles AIDXA de pointe sont basées sur des régions d’images CXR en dehors du poumon. Cet OLS est observé à la fois dans les images non compressées et compressées, l’OLS étant exacerbé dans ces dernières.
Bien que le PIP et l’OLS aient été identifiés comme des défis dans des recherches antérieures, aucune mesure pour étudier leurs impacts n’a été mise en œuvre. Pour répondre à ce besoin, les chercheurs introduisent le « score PI » et le « score OLS » comme mesures quantitatives des performances des modèles AIDXA de pointe.
Compte tenu de l’instabilité et de l’importance alarmantes observées dans les modèles AIDXA actuels, un nouveau modèle d’apprentissage multitâche (MTL) appelé COVIDMT a été développé.
COVIDMT est construit sur un réseau d’apprentissage profond de pointe connu sous le nom de réseau de base. Le réseau de base est initialisé avec des poids Imagenet pour permettre l’apprentissage par transfert, maximisant ainsi les performances du modèle COVIDMT sur le domaine cible ».
Les scores PI et OLS ont été utilisés pour évaluer les performances du COVIDMT par rapport aux modèles de diagnostic AI COVID-19 de la génération actuelle.
Résultats de l’étude
Les systèmes AIDXA de réseau neuronal profond les plus largement utilisés actuellement dans le diagnostic automatisé du COVID-19 sont ResNet-50, ResNeXt-50, VGG-19, XceptionNet et COVID-Net. Chacun de ces modèles a été évalué pour les performances PIP et OLS ; cependant, COVID-Net est particulièrement pertinent, car il utilise le même ensemble de données de formation que COVIDMT.
La préparation de l’ensemble de données WaCXR a réduit la taille du fichier de 6,7 Go à 351 Mo, avec un facteur de compression de 95 %. Bien que visuellement presque impossible à distinguer, cela entraîne des changements importants au niveau des pixels et, par conséquent, des incohérences des données d’entrée du modèle d’IA.
Les résultats du PI Score indiquent une instabilité comprise entre 4,36 % et 11,71 % pour les modèles de pointe actuels. Les scores OLS étaient tout aussi médiocres, avec une saillance moyenne de 66 % pour les images originales et de 70 % pour les images compressées. Notamment, COVID-Net a présenté une saillance de 70 %, même pour les images non compressées, soulignant ainsi que les modèles d’IA actuels présentent un risque accru d’instabilité et de saillance.
Les résultats de COVIDMT décrivent une amélioration de 40 % du score PI du modèle MT par rapport à ResNet-50 et ResNeXt-50. Les scores OLS ont également été améliorés de 35 % par rapport au modèle de base correspondant.
Dans des recherches futures, il serait intéressant d’explorer les défis du PIP et de l’OLS en relation avec différentes anomalies et modalités d’imagerie. De plus, étudier le potentiel d’un cadre d’apprentissage multitâche pour résoudre ces problèmes pourrait être une direction prometteuse pour une exploration plus approfondie.