Les outils d’apprentissage profond surpassent-ils les humains dans le diagnostic du cancer du sein par échographie ?

Dans une étude récente publiée dans la revue npj Oncologie de précisiondes chercheurs ont mené une revue systématique pour examiner l’exactitude de l’apprentissage profond (DL) dans le diagnostic du cancer du sein par échographie (États-Unis) par rapport aux lecteurs humains en milieu clinique.

Ils ont constaté qu’il n’y avait pas suffisamment de preuves pour déterminer si le DL fonctionnait mieux que les lecteurs humains ou augmentait la précision du diagnostic du sein par échographie en milieu clinique.

Étude: Performance diagnostique de l’apprentissage profond dans le diagnostic échographique du cancer du sein : une revue systématique. Crédit d’image : Gorodenkoff/Shutterstock.com

Sommaire

Arrière-plan

Le cancer du sein, le cancer le plus répandu dans le monde, a causé 685 000 décès en 2020. Un diagnostic précoce et précis est crucial.

Les États-Unis constituent un outil de diagnostic peu coûteux, sans rayonnement et efficace, en particulier dans les cas de tissus mammaires denses ou de lésions occultes, offrant des conseils pour les procédures de biopsie. Cependant, son efficacité diagnostique et sa reproductibilité sont entravées par des facteurs dépendants de l’opérateur.

DL est une puissante technologie d’intelligence artificielle qui s’avère performante dans les tâches liées à l’image, améliorant l’efficacité et la précision des flux de travail d’imagerie médicale, en particulier dans le diagnostic de maladies telles que le cancer.

Des rapports récents suggèrent que l’analyse de l’échographie du sein basée sur la DL pourrait être équivalente ou supérieure à celle des radiologues humains, mais son application clinique reste débattue.

Par conséquent, les chercheurs de la présente revue se sont concentrés sur les performances diagnostiques générales de la DL dans l’échographie du sein, en comparant les systèmes DL autonomes aux radiologues et en évaluant le rôle d’assistance de la DL aux côtés des lecteurs humains.

À propos de l’étude

Dans la présente étude, une recherche dans la base de données suivie de l’application de critères d’inclusion et d’exclusion stricts a finalement donné lieu à 16 études portant sur 9 238 femmes de divers pays.

Ces études ont été sélectionnées sur la base du cadre PICO (abréviation de population, intervention, comparaison, résultat) et ont utilisé des réseaux neuronaux convolutifs DL, 14 d’entre elles employant des systèmes DL commerciaux.

La plupart des études incluses concernaient un contexte de diagnostic et la pathologie servait de référence dans chacune d’entre elles. La qualité de l’étude a été évaluée à l’aide de versions adaptées des outils Quality for Assessment of Diagnostic Studies-2 (QUADAS-2) et QUADAS-C.

DL pourrait être utilisé comme un outil autonome ou peut être utilisé pour aider les radiologues dans le but d’améliorer les capacités de diagnostic.

Quatre études ont évalué le DL comme autonome, deux comme assistant et dix ont exploré les deux rôles. Des lecteurs humains ayant différents niveaux d’expérience clinique en échographie mammaire ont été recrutés pour évaluer les performances de la DL.

Résultats et discussion

Dans 14 études évaluant le DL en tant que système autonome aux États-Unis, des comparaisons ont été effectuées avec des lecteurs humains. Alors qu’une étude a révélé que l’aire sous la courbe (AUC) de DL était inférieure à celle des lecteurs humains, deux ont montré une AUC équivalente et une a rapporté une AUC plus élevée pour DL.

DL a démontré une ASC supérieure à celle des lecteurs humains moins expérimentés, mais était comparable à celle des lecteurs expérimentés dans trois études. En ce qui concerne la précision, DL a surpassé tous les lecteurs humains dans deux études et a surpassé les lecteurs moins expérimentés, mais s’est avéré comparable aux lecteurs expérimentés dans une autre étude.

Le DL a montré une sensibilité inférieure à celle des lecteurs humains dans cinq études et une spécificité plus élevée dans cinq études, avec des résultats variés dans les autres études.

Dans 12 études évaluant les systèmes d’assistance DL aux États-Unis, trois ont rapporté une amélioration de l’ASC lorsqu’elles étaient combinées avec des lecteurs humains. Une étude a montré une ASC comparable à celle des lecteurs humains. Pour les lecteurs humains moins expérimentés, les systèmes d’assistance DL avaient une AUC plus élevée mais n’avaient aucun impact positif sur les lecteurs expérimentés.

Lors des tests de précision, les systèmes d’assistance DL ont montré une précision supérieure à celle des lecteurs humains dans trois études. Cependant, aucune amélioration de la sensibilité globale n’a été observée lors de la combinaison du DL avec des lecteurs humains.

Une spécificité élevée a été observée chez les lecteurs humains dans sept études utilisant des systèmes d’assistance DL, avec des variations d’impact sur la spécificité pour les lecteurs expérimentés et moins expérimentés.

Lors de l’évaluation de la qualité, les études incluses dans la présente revue ont démontré un risque élevé de biais dans divers domaines. La plupart des études ont montré un biais élevé dans la sélection des patients en raison d’une prévalence du cancer dépassant largement les scénarios du monde réel.

De plus, les modèles d’étude ne reproduisaient pas entièrement les parcours cliniques, car les systèmes DL étaient utilisés pour lire les images mais n’étaient pas intégrés dans les décisions cliniques finales. Les parcours de test des lecteurs humains n’avaient pas accès aux informations cliniques des patients, et les normes de référence variaient selon les études.

Notamment, certaines études comportaient une courte période de suivi pour les femmes dont les tests étaient négatifs, ce qui pouvait avoir un impact sur l’évaluation des cancers manqués et sur l’exactitude globale du diagnostic.

Conclusion

En conclusion, cette revue complète évaluant les performances diagnostiques des systèmes DL dans l’échographie du sein a révélé une variabilité substantielle des résultats.

Bien que les systèmes DL aient démontré des avantages potentiels en termes de spécificité, aucun consensus n’a émergé sur l’ASC, la précision ou la sensibilité, qu’ils soient utilisés seuls ou comme aides à la lecture humaine.

Des préoccupations ont été soulevées concernant les biais, l’hétérogénéité des études et les limites de la généralisabilité, en particulier dans les études centrées sur l’Asie. La revue souligne la nécessité de directives de recherche standardisées sur la DL, de références cohérentes et d’essais multicentriques pour garantir la reproductibilité et l’applicabilité clinique.

Les preuves actuelles ne soutiennent pas de recommandations cliniques générales pour les systèmes DL dans le sein aux États-Unis, ce qui appelle à davantage de recherche et de développement dans ce domaine.