L’intelligence artificielle promet d’être un outil puissant pour améliorer la rapidité et la précision de la prise de décision médicale afin d’améliorer les résultats pour les patients. Du diagnostic de la maladie à la personnalisation du traitement, en passant par la prévision des complications de la chirurgie, l’intelligence artificielle pourrait devenir aussi intégrale aux soins des patients à l’avenir que l’imagerie et les tests de laboratoire le sont aujourd’hui.
Mais comme les chercheurs de l’Université de Washington l’ont découvert, les modèles d’IA – comme les humains – ont tendance à rechercher des raccourcis. Dans le cas de la détection de maladies assistée par IA, ces raccourcis peuvent entraîner des erreurs de diagnostic s’ils sont déployés dans des contextes cliniques.
Dans un nouvel article publié le 31 mai dans Intelligence artificielle de la nature, Les chercheurs de l’UW ont examiné plusieurs modèles récemment proposés comme outils potentiels pour détecter avec précision le COVID-19 à partir de la radiographie thoracique, également connue sous le nom de radiographies thoraciques. L’équipe a constaté que, plutôt que d’apprendre une véritable pathologie médicale, ces modèles reposent plutôt sur un apprentissage par raccourcis pour établir des associations fausses entre des facteurs médicalement non pertinents et l’état de la maladie. Ici, les modèles ignoraient les indicateurs cliniquement significatifs et se fondaient plutôt sur des caractéristiques telles que les marqueurs de texte ou le positionnement du patient qui étaient spécifiques à chaque ensemble de données pour prédire si quelqu’un avait COVID-19.
« Un médecin s’attend généralement à ce qu’une découverte de COVID-19 à partir d’une radiographie soit basée sur des modèles spécifiques de l’image qui reflètent les processus de la maladie », a déclaré le co-auteur principal Alex DeGrave, qui poursuit son doctorat dans le Paul G. Allen School of Computer Science & Engineering et un diplôme en médecine dans le cadre du programme de formation des scientifiques médicaux de l’UW. « Mais plutôt que de se fier à ces modèles, un système utilisant l’apprentissage par raccourcis pourrait, par exemple, juger qu’une personne est âgée et ainsi en déduire qu’elle est plus susceptible d’être atteinte de la maladie parce qu’elle est plus fréquente chez les patients plus âgés. Le raccourci n’est pas faux. en soi, mais l’association est inattendue et peu transparente. Et cela pourrait conduire à un diagnostic inapproprié. «
L’apprentissage par raccourcis est moins robuste que la véritable pathologie médicale et signifie généralement que le modèle ne se généralisera pas bien en dehors du cadre d’origine, a déclaré l’équipe.
« Un modèle qui repose sur des raccourcis ne fonctionnera souvent que dans l’hôpital dans lequel il a été développé, donc lorsque vous emmenez le système dans un nouvel hôpital, il échoue – et cet échec peut orienter les médecins vers un mauvais diagnostic et un traitement inapproprié ». Dit DeGrave.
Combinez ce manque de robustesse avec l’opacité typique de la prise de décision de l’IA, et un tel outil pourrait passer d’un potentiel de sauvetage à un passif.
Le manque de transparence est l’un des facteurs qui ont conduit l’équipe à se concentrer sur des techniques d’IA explicables pour la médecine et la science. La plupart de l’IA est considérée comme une «boîte noire» – le modèle est entraîné sur des ensembles de données massifs et il crache des prédictions sans que personne ne sache précisément comment le modèle est arrivé à un résultat donné. Grâce à l’IA explicable, les chercheurs et les praticiens sont en mesure de comprendre en détail comment diverses entrées et leurs poids ont contribué à la sortie d’un modèle.
L’équipe a utilisé ces mêmes techniques pour évaluer la fiabilité des modèles récemment vantés pour sembler identifier avec précision les cas de COVID-19 à partir de radiographies pulmonaires. Malgré un certain nombre d’articles publiés annonçant les résultats, les chercheurs soupçonnaient que quelque chose d’autre s’était peut-être passé à l’intérieur de la boîte noire qui a conduit aux prédictions des modèles.
Plus précisément, l’équipe a estimé que ces modèles seraient sujets à une condition connue sous le nom de «pire cas de confusion», en raison du manque de données d’entraînement disponibles pour une telle nouvelle maladie. Ce scénario augmentait la probabilité que les modèles s’appuient sur des raccourcis plutôt que d’apprendre la pathologie sous-jacente de la maladie à partir des données de formation.
« Le pire des cas de confusion est ce qui permet à un système d’IA d’apprendre simplement à reconnaître des ensembles de données au lieu d’apprendre une véritable pathologie de la maladie », a déclaré le co-auteur principal Joseph Janizek, qui est également étudiant au doctorat à l’école Allen et qui a obtenu un diplôme en médecine à l’UW. «C’est ce qui se passe lorsque tous les cas positifs au COVID-19 proviennent d’un seul ensemble de données alors que tous les cas négatifs sont dans un autre. Et tandis que les chercheurs ont mis au point des techniques pour atténuer les associations comme celle-ci dans les cas où ces associations sont moins graves, ces techniques ne fonctionnent pas dans les situations où vous avez une association parfaite entre un résultat tel que le statut COVID-19 et un facteur comme la source de données. «
L’équipe a formé plusieurs réseaux de neurones à convolution profonde sur des images radiographiques à partir d’un ensemble de données qui reproduisait l’approche utilisée dans les articles publiés. Ils ont d’abord testé les performances de chaque modèle sur un ensemble interne d’images de cet ensemble de données initial qui avait été retenu des données d’entraînement. Ensuite, les chercheurs ont testé les performances des modèles sur un deuxième ensemble de données externe destiné à représenter les nouveaux systèmes hospitaliers.
Alors que les modèles ont conservé leur haute performance lorsqu’ils ont été testés sur des images de l’ensemble de données interne, leur précision a été réduite de moitié sur le deuxième ensemble. Les chercheurs ont appelé cela un «écart de généralisation» et l’ont cité comme une preuve solide que des facteurs de confusion étaient responsables du succès prédictif des modèles sur l’ensemble de données initial.
L’équipe a ensuite appliqué des techniques d’IA explicables, y compris des réseaux antagonistes génératifs et des cartes de saillance, pour identifier les caractéristiques d’image les plus importantes pour déterminer les prédictions des modèles.
Les chercheurs ont formé les modèles sur un deuxième ensemble de données, qui contenait des cas positifs et négatifs de COVID-19 provenant de sources similaires, et était donc présumé moins enclin à la confusion. Mais même ces modèles ont montré une baisse correspondante des performances lorsqu’ils ont été testés sur des données externes.
Ces résultats bouleversent la sagesse conventionnelle selon laquelle la confusion pose moins de problème lorsque les ensembles de données sont dérivés de sources similaires. Ils révèlent également dans quelle mesure les systèmes d’IA médicale haute performance pourraient exploiter des raccourcis indésirables plutôt que les signaux souhaités.
Mon équipe et moi sommes toujours optimistes quant à la viabilité clinique de l’IA pour l’imagerie médicale. Je pense que nous aurons à terme des moyens fiables d’empêcher l’IA d’apprendre des raccourcis, mais il faudra encore du travail pour y parvenir. À l’avenir, l’IA explicable sera un outil essentiel pour garantir que ces modèles peuvent être utilisés de manière sûre et efficace pour augmenter la prise de décision médicale et obtenir de meilleurs résultats pour les patients. «
Su-In Lee, auteur principal, professeur à l’école Allen
Malgré les préoccupations soulevées par les résultats de l’équipe, il est peu probable que les modèles étudiés par l’équipe aient été largement déployés dans le cadre clinique, a déclaré DeGrave. Bien qu’il soit prouvé qu’au moins l’un des modèles défectueux – COVID-Net – a été déployé dans plusieurs hôpitaux, on ne sait pas s’il a été utilisé à des fins cliniques ou uniquement pour la recherche.
« Des informations complètes sur l’endroit et la manière dont ces modèles ont été déployés ne sont pas disponibles, mais il est prudent de supposer que l’utilisation clinique de ces modèles est rare ou inexistante », a déclaré DeGrave. « La plupart du temps, les prestataires de soins de santé diagnostiquent le COVID-19 à l’aide d’un test de laboratoire, la PCR, plutôt que de se fier aux radiographies thoraciques. Et les hôpitaux sont opposés à la responsabilité, ce qui rend encore moins probable qu’ils s’appuieraient sur un système d’IA relativement non testé. »
Les chercheurs qui cherchent à appliquer l’IA à la détection des maladies devront réorganiser leur approche avant que de tels modèles puissent être utilisés pour prendre des décisions de traitement réelles pour les patients, a déclaré Janizek.
«Nos résultats soulignent l’importance d’appliquer des techniques d’IA explicables pour auditer rigoureusement les systèmes d’IA médicale», a déclaré Janizek. « Si vous regardez une poignée de rayons X, le système d’IA peut sembler bien se comporter. Les problèmes ne deviennent évidents que lorsque vous regardez de nombreuses images. Jusqu’à ce que nous ayons des méthodes pour auditer plus efficacement ces systèmes en utilisant une plus grande taille d’échantillon, un plus l’application systématique de l’IA explicable pourrait aider les chercheurs à éviter certains des pièges que nous avons identifiés avec les modèles COVID-19. «
Ce groupe a déjà démontré la valeur de l’IA explicable pour une gamme d’applications médicales au-delà de l’imagerie. Ceux-ci incluent des outils pour évaluer les facteurs de risque des patients pour les complications pendant la chirurgie et cibler les thérapies contre le cancer en fonction du profil moléculaire d’un individu.
Cet article est l’une des deux études de ce groupe à paraître dans le numéro actuel de Intelligence artificielle de la nature. Lee est également l’auteur principal et correspondant du deuxième article, « Amélioration des performances des modèles d’apprentissage profond avec des priors d’attribution axiomatiques et des gradients attendus », pour lequel elle a fait équipe avec Janizek, son collègue MD-Ph.D. étudiant Gabriel Erion, Ph.D. l’étudiant Pascal Sturmfels et le professeur affilié Scott Lundberg de Microsoft Research.
La source:
Référence du journal:
DeGrave, AJ, et coll. (2021) AI pour la détection radiographique COVID-19 sélectionne les raccourcis sur le signal. Intelligence artificielle de la nature. doi.org/10.1038/s42256-021-00338-7.