Les maladies rares sont souvent difficiles à diagnostiquer et prédire le meilleur traitement peut être difficile pour les cliniciens. Les enquêteurs du Mahmood Lab du Brigham and Women’s Hospital, membre fondateur du système de santé Mass General Brigham, ont développé un algorithme d’apprentissage en profondeur qui peut apprendre par lui-même à apprendre des fonctionnalités qui peuvent ensuite être utilisées pour trouver des cas similaires dans de grands référentiels d’images de pathologie. Connu sous le nom de SISH (Self-Supervised Image search for Histology), le nouvel outil agit comme un moteur de recherche d’images pathologiques et a de nombreuses applications potentielles, notamment l’identification de maladies rares et l’aide aux cliniciens pour déterminer quels patients sont susceptibles de répondre à des thérapies similaires. Un article présentant l’algorithme d’auto-apprentissage est publié dans Nature Génie biomédical.
Nous montrons que notre système peut aider au diagnostic de maladies rares et trouver des cas avec des modèles morphologiques similaires sans avoir besoin d’annotations manuelles et de grands ensembles de données pour une formation supervisée. Ce système a le potentiel d’améliorer la formation en pathologie, le sous-typage des maladies, l’identification des tumeurs et l’identification des morphologies rares. »
Faisal Mahmood, PhD, auteur principal, département de pathologie de Brigham
Les bases de données électroniques modernes peuvent stocker une immense quantité d’enregistrements numériques et d’images de référence, en particulier en pathologie grâce à des images de diapositives entières (WSI). Cependant, la taille en gigapixels de chaque WSI individuel et le nombre toujours croissant d’images dans les grands référentiels signifient que la recherche et la récupération des WSI peuvent être lentes et compliquées. Par conséquent, l’évolutivité reste un obstacle pertinent pour une utilisation efficace.
Pour résoudre ce problème, les chercheurs du Brigham ont développé SISH, qui apprend par lui-même à apprendre des représentations de caractéristiques qui peuvent être utilisées pour trouver des cas avec des caractéristiques analogues en pathologie à une vitesse constante quelle que soit la taille de la base de données.
Dans leur étude, les chercheurs ont testé la vitesse et la capacité de SISH à récupérer des informations interprétables sur les sous-types de maladies pour les cancers courants et rares. L’algorithme a récupéré avec succès des images avec rapidité et précision à partir d’une base de données de dizaines de milliers d’images de diapositives entières provenant de plus de 22 000 cas de patients, avec plus de 50 types de maladies différents et plus d’une douzaine de sites anatomiques. La vitesse de récupération a surpassé d’autres méthodes dans de nombreux scénarios, y compris la récupération des sous-types de maladies, en particulier lorsque la taille de la base de données d’images a été réduite à des milliers d’images. Même si la taille des référentiels augmentait, SISH était toujours en mesure de maintenir une vitesse de recherche constante.
L’algorithme, cependant, présente certaines limites, notamment une grande exigence de mémoire, une prise de conscience limitée du contexte dans les grandes lames de tissus et le fait qu’il est limité à une seule modalité d’imagerie.
Dans l’ensemble, l’algorithme a démontré sa capacité à récupérer efficacement des images indépendamment de la taille du référentiel et dans divers ensembles de données. Il a également démontré sa compétence dans le diagnostic de types de maladies rares et sa capacité à servir de moteur de recherche pour reconnaître certaines régions d’images qui peuvent être pertinentes pour le diagnostic. Ce travail peut grandement éclairer le diagnostic, le pronostic et l’analyse futurs de la maladie.
« Alors que la taille des bases de données d’images continue de croître, nous espérons que SISH sera utile pour faciliter l’identification des maladies », a déclaré Mahmood. « Nous pensons qu’une orientation future importante dans ce domaine est la récupération multimodale des cas, qui implique l’utilisation conjointe de données de pathologie, de radiologie, de génomique et de dossiers médicaux électroniques pour trouver des cas de patients similaires. »