À l’aide d’une évaluation standardisée, des chercheurs britanniques ont comparé les performances d’un algorithme d’intelligence artificielle (IA) disponible dans le commerce avec des lecteurs humains de mammographies de dépistage. Les résultats de leurs découvertes ont été publiés dans Radiologieune revue de la Radiological Society of North America (RSNA).
Le dépistage mammographique ne permet pas de détecter tous les cancers du sein. Des interprétations faussement positives peuvent amener des femmes sans cancer à subir une imagerie et une biopsie inutiles. Pour améliorer la sensibilité et la spécificité de la mammographie de dépistage, une solution consiste à demander à deux lecteurs d’interpréter chaque mammographie.
Selon les chercheurs, la double lecture augmente les taux de détection du cancer de 6 à 15 % et maintient les taux de rappel à un niveau bas. Cependant, cette stratégie demande beaucoup de main d’œuvre et est difficile à mettre en œuvre en période de pénurie de lecteurs.
Il y a beaucoup de pression pour déployer rapidement l’IA pour résoudre ces problèmes, mais nous devons bien faire les choses pour protéger la santé des femmes. »
Yan Chen, Ph.D., professeur de dépistage numérique, Université de Nottingham, Royaume-Uni
Le professeur Chen et son équipe de recherche ont utilisé des ensembles de tests de l’évaluation de l’assurance qualité Personal Performance in Mammographic Screening, ou PERFORMS, utilisée par le National Health Service Breast Screening Program (NHSBSP) du Royaume-Uni, pour comparer les performances des lecteurs humains avec l’IA. Un seul test PERFORMS comprend 60 examens difficiles du NHSBSP avec des résultats anormaux, bénins et normaux. Pour chaque mammographie test, le score du lecteur est comparé à la vérité terrain des résultats de l’IA.
« Il est vraiment important que les lecteurs humains travaillant dans le domaine du dépistage du cancer du sein démontrent des performances satisfaisantes », a-t-elle déclaré. « Il en sera de même pour l’IA une fois qu’elle entrera dans la pratique clinique. »
L’équipe de recherche a utilisé les données de deux ensembles de tests PERFORMS consécutifs, soit 120 mammographies de dépistage, et des deux mêmes ensembles pour évaluer les performances de l’algorithme d’IA. Les chercheurs ont comparé les résultats des tests d’IA avec les scores de 552 lecteurs humains, dont 315 (57 %) radiologues certifiés et 237 lecteurs non radiologues, dont 206 radiographes et 31 cliniciens du sein.
« Les 552 lecteurs de notre étude représentent 68 % des lecteurs du NHSBSP, ce qui fournit une solide comparaison des performances entre les lecteurs humains et l’IA », a déclaré le professeur Chen.
En traitant chaque sein séparément, il y avait 161/240 (67 %) seins normaux, 70/240 (29 %) seins présentant des tumeurs malignes et 9/240 (4 %) seins bénins. Les masses étaient la caractéristique mammographique maligne la plus courante (45/70 ou 64,3 %), suivies des calcifications (9/70 ou 12,9 %), des asymétries (8/70 ou 11,4 %) et des distorsions architecturales (8/70 ou 11,4 %). . La taille moyenne des lésions malignes était de 15,5 mm.
Aucune différence de performance n’a été observée entre les lecteurs IA et les lecteurs humains dans la détection du cancer du sein dans 120 examens. Les performances du lecteur humain ont démontré une sensibilité moyenne de 90 % et une spécificité de 76 %. L’IA était comparable en sensibilité (91 %) et en spécificité (77 %) à celle des lecteurs humains.
« Les résultats de cette étude fournissent des preuves solides que l’IA pour le dépistage du cancer du sein peut être aussi efficace que les lecteurs humains », a déclaré le professeur Chen.
Le professeur Chen a déclaré que des recherches supplémentaires sont nécessaires avant que l’IA puisse être utilisée comme deuxième lecteur dans la pratique clinique.
« Je pense qu’il est trop tôt pour dire précisément comment nous utiliserons à terme l’IA dans le dépistage du cancer du sein », a-t-elle déclaré. « Les grands essais cliniques prospectifs en cours nous en diront davantage. Mais quelle que soit la manière dont nous utilisons l’IA, la capacité à assurer une surveillance continue des performances sera cruciale pour son succès. »
Le professeur Chen a déclaré qu’il est important de reconnaître que les performances de l’IA peuvent dériver avec le temps et que les algorithmes peuvent être affectés par les changements dans l’environnement d’exploitation.
« Il est essentiel que les centres d’imagerie disposent d’un processus permettant d’assurer une surveillance continue de l’IA une fois qu’elle fera partie de la pratique clinique », a-t-elle déclaré. « Il n’existe à ce jour aucune autre étude comparant un si grand nombre de performances de lecteurs humains dans des ensembles de tests d’assurance qualité de routine à l’IA. Cette étude peut donc fournir un modèle pour évaluer les performances de l’IA dans un environnement réel. »