Les chercheurs explorent comment les évaluations des lymphocytes infiltrant les tumeurs (TIL) pilotées par l’IA surpassent les méthodes manuelles en termes de précision, mais soulignent la nécessité de disposer d’ensembles de données robustes pour garantir la fiabilité dans la pratique clinique.
Organigramme d'analyse d'images numériques pour le développement et l'utilisation de classificateurs. (a) Pipeline de formation au prétraitement et aux classificateurs (KNN10, RT10, NN10, NN20, NN30, NN40 et NN50). (b) Application des modèles TIL. (c) Évaluation analytique des classificateurs sur l'ensemble de validation interne de Yale. (d) Évaluation pronostique dans un ensemble de validation indépendant. Notez que le « classificateur entraîné » appliqué dans les sous-figures bd est celui créé dans a, en plus de celui de HoverNet, CellViT et Abousamra. Étude : La validité analytique et clinique des algorithmes d’IA pour noter les TIL dans TNBC : pouvons-nous utiliser différents modèles d’apprentissage automatique de manière interchangeable ?
Dans une étude récente publiée dans la revue eMédecineCliniquedes chercheurs ont comparé les performances pronostiques et analytiques de modèles d'évaluation des lymphocytes infiltrant les tumeurs (TIL) basés sur l'intelligence artificielle (IA) dans le cancer du sein triple négatif (TNBC).
Ces dernières années ont été témoins d’un développement sans précédent de nouveaux traitements contre le cancer du sein à un stade précoce. Cependant, une mise en œuvre systématique d’une stratification des risques basée sur les biomarqueurs est nécessaire de toute urgence pour prévenir le sous-traitement ou le surtraitement et sélectionner les patients susceptibles de bénéficier d’un traitement supplémentaire.
De plus, la quantité de lymphocytes infiltrant le stroma tumoral, à savoir les TIL stromaux (sTIL), est une caractéristique pronostique du TNBC à un stade précoce. Bien que des lignes directrices aient été publiées pour standardiser l'évaluation du sTIL, la variabilité inter-observateur est inévitable et le score TIL est limité dans sa capacité à capturer les complexités du microenvironnement tumoral (TME).
Cela souligne la nécessité d’approches avancées et automatisées capables de répondre à la variabilité et de fournir des informations plus approfondies sur les interactions tumeur-immunité. De plus, les performances des modèles d’IA sur diverses plates-formes d’imagerie et ensembles de données restent un facteur essentiel pour l’adoption clinique.
À propos de l'étude
Dans la présente étude, les chercheurs ont comparé la capacité pronostique et analytique de 10 modèles d’évaluation TIL basés sur l’IA. Des coupes de tissus entiers (WTS) ont été obtenues auprès de 106 femmes atteintes de tumeurs TNBC invasives primaires entre 2012 et 2016. Quatre-vingt-douze lames de 79 patients ont été utilisées pour la formation et les tests internes des modèles. De plus, le WTS et les données cliniques de 215 patients TNBC (d'une autre cohorte) ont été utilisés pour une validation externe.
Des algorithmes de notation TIL automatisés ont été créés à l'aide de la plateforme QuPath. Des modèles de trois familles, réseau neuronal (NN), K-plus proche voisin (KNN) et arbres aléatoires (RT), ont été formés sur un sous-ensemble de 10 images. Des scénarios de formation supplémentaires comprenaient l’augmentation du nombre d’échantillons de patients (20, 30, etc.). Chaque méthode était représentée par « MN », où M était le nom de la méthode (par exemple, KNN) et N le nombre d'échantillons d'apprentissage.
Chaque image comprenait des annotations manuelles pour environ 450 cellules, avec au moins 150 lymphocytes et 150 cellules tumorales. Les cellules restantes étaient du stroma ou d'autres sous-types. Les chercheurs ont utilisé une stratégie « humain dans la boucle » pour la formation des modèles, impliquant des annotations manuelles itératives et des contrôles de précision pour obtenir des performances optimales du classificateur. Cette méthode garantissait que les modèles reflétaient avec précision l'hétérogénéité des TIL.
En plus de ces modèles, trois méthodes avancées d'apprentissage en profondeur (CellViT, HoverNet et le modèle d'Abousamra) ont été incluses pour fournir une analyse comparative des techniques de pointe. Les scores numériques TIL ont été calculés à l'aide de la formule easTILs pour tous les modèles, à l'exception de celui d'Abousamra.
Pour le modèle d'Abousamra, le pourcentage de régions cancéreuses invasives prédites sous forme de plaques lymphocytaires a été utilisé comme score TIL. La corrélation entre les scores sTIL manuels des pathologistes et les scores sTIL numériques a été déterminée à l'aide du coefficient de corrélation de Spearman.
La régression univariée et multivariée de Cox a évalué la valeur pronostique des scores TIL ajustés en fonction de l'âge, du grade histologique, du statut ganglionnaire et de la taille de la tumeur. Les modèles HoverNet et CellViT ont été pré-entraînés sur l'ensemble de données PanNuke, qui englobe plus de 200 000 noyaux dans 19 types de tissus, permettant à ces modèles de réaliser une segmentation et une classification cellulaires à grain fin.
Résultats
L'équipe a développé sept modèles (KNN10, NN10, RT10, NN20, NN30, NN40 et NN50). Dans l'ensemble de validation interne, RT10 et KNN10 présentaient la distribution la plus large des scores TIL, tandis que les modèles NN présentaient des distributions comparables et cohérentes. En revanche, CellViT et HoverNet présentaient les distributions les plus étroites, tandis que la notation manuelle et le modèle d'Abousamra présentaient les distributions les plus larges. La corrélation entre les scores sTIL numériques et les scores sTIL manuels variait selon les modèles.
RT10 a montré la meilleure corrélation parmi les modèles formés sur des échantillons limités ; KNN10 présentait une corrélation modérée et NN10 présentait une corrélation légèrement meilleure. L'augmentation du nombre d'échantillons a progressivement augmenté les corrélations. CellViT et HoverNet ont montré la deuxième meilleure corrélation. Cependant, des disparités significatives sont apparues entre les ensembles de validation internes et externes, toutes les méthodes montrant des performances réduites dans la cohorte externe.
Les différences entre les plates-formes d'imagerie (le système Leica Aperio de Yale et la plate-forme NanoZoomer de SCAN-B) ont probablement contribué à ces écarts. Dans la cohorte de validation externe, les distributions des scores TIL étaient beaucoup plus étroites pour toutes les méthodes ; tous les coefficients de corrélation ont diminué en valeur.
Néanmoins, RT10 présentait toujours la meilleure corrélation, tandis que KNN10 présentait la corrélation la plus faible. De plus, l’augmentation de la taille de l’échantillon n’a pas amélioré la corrélation, contrairement à la cohorte interne. De plus, les associations de modèles et de résultats pour les patients ont été étudiées dans la cohorte de validation externe, avec la survie sans maladie invasive (IDFS) comme critère d'évaluation clinique.
L’IDFS a été défini comme le temps écoulé entre le diagnostic et le décès quelle qu’en soit la cause ou les événements liés au cancer du sein. Dans l'analyse de régression univariée de Cox, tous, à l'exception du modèle d'Abousamra, ont montré des résultats significatifs et présentaient des rapports de risque similaires et se chevauchant.
L'analyse multivariée a donné des résultats similaires pour tous les modèles, même si le modèle de CellViT et d'Abousamra avait des résultats limites non significatifs. L'étude a noté que la notation TIL continue fournissait une analyse pronostique plus robuste que les scores basés sur des seuils, compte tenu de la variabilité des distributions entre les méthodes.
Conclusions
En résumé, les chercheurs ont évalué la capacité pronostique et analytique de 10 modèles TIL basés sur l’IA par rapport à IDFS. Sept modèles ont été développés et trois étaient des modèles pré-entraînés et validés.
En ce qui concerne les performances analytiques, les modèles d'IA ont atteint une corrélation modérée à bonne, même lorsqu'ils étaient entraînés sur un plus grand nombre d'échantillons, bien que les modèles d'architecture similaire (par exemple, NN10-50) présentaient une corrélation élevée. Néanmoins, l’étude met en évidence l’écart persistant entre les performances internes et externes, soulignant la nécessité de validations externes rigoureuses.
Leur performance a chuté dans la cohorte externe ; l'augmentation de la taille de l'échantillon de formation n'a pas amélioré la corrélation. Néanmoins, le potentiel pronostique des TIL numériques était remarquable pour presque tous les modèles, même pour les modèles avec des échantillons de formation plus petits.
L’étude a également souligné que pour une adoption clinique, les modèles d’IA doivent offrir transparence et explicabilité, permettant aux cliniciens de comprendre et de faire confiance aux prédictions. Cela inclut la possibilité d'examiner les cellules mal classées directement dans la sortie de segmentation.
Dans l’ensemble, les chercheurs soulignent l’importance d’ensembles de données vastes, diversifiés et multicentriques pour servir de référence pour la normalisation et la validation des modèles d’IA. Ces ensembles de données sont essentiels pour garantir la compatibilité clinique et éliminer les risques associés aux biais spécifiques au modèle.