En quoi les cellules cancéreuses diffèrent-elles des cellules saines ? Un nouvel algorithme d’apprentissage automatique appelé « ikarus » connaît la réponse, rapporte une équipe dirigée par le bioinformaticien du MDC Altuna Akalin dans la revue Genome Biology. Le programme d’IA a trouvé une signature génétique caractéristique des tumeurs.
Lorsqu’il s’agit d’identifier des modèles dans des montagnes de données, les êtres humains ne sont pas à la hauteur de l’intelligence artificielle (IA). En particulier, une branche de l’IA appelée apprentissage automatique est souvent utilisée pour trouver des régularités dans des ensembles de données, que ce soit pour l’analyse boursière, la reconnaissance d’images et de la parole ou la classification de cellules. Pour distinguer de manière fiable les cellules cancéreuses des cellules saines, une équipe dirigée par le Dr Altuna Akalin, responsable de la plateforme de bioinformatique et de science des données omiques au Centre Max Delbrück de médecine moléculaire de l’Association Helmholtz (MDC), a maintenant développé un programme d’apprentissage automatique. appelé « ikarus ». Le programme a trouvé un modèle dans les cellules tumorales qui est commun à différents types de cancer, consistant en une combinaison caractéristique de gènes. Selon l’article de l’équipe dans la revue Genome Biology, l’algorithme a également détecté des types de gènes dans le schéma qui n’avaient jamais été clairement liés au cancer auparavant.
L’apprentissage automatique signifie essentiellement qu’un algorithme utilise des données d’apprentissage pour apprendre à répondre par lui-même à certaines questions. Pour ce faire, il recherche des modèles dans les données qui l’aident à résoudre des problèmes. Après la phase d’apprentissage, le système peut généraliser à partir de ce qu’il a appris afin d’évaluer des données inconnues.
C’était un défi majeur d’obtenir des données de formation appropriées là où les experts avaient déjà clairement distingué les cellules «saines» et «cancéreuses».
Jan Dohmen, premier auteur de l’article
Un taux de réussite étonnamment élevé
De plus, les ensembles de données de séquençage unicellulaire sont souvent bruyants. Cela signifie que les informations qu’ils contiennent sur les caractéristiques moléculaires des cellules individuelles ne sont pas très précises – peut-être parce qu’un nombre différent de gènes est détecté dans chaque cellule, ou parce que les échantillons ne sont pas toujours traités de la même manière. Comme le rapportent Dohmen et son collègue, le Dr Vedran Franke, co-responsable de l’étude, ils ont passé au crible d’innombrables publications et contacté un certain nombre de groupes de recherche afin d’obtenir des ensembles de données adéquats. L’équipe a finalement utilisé des données provenant de cellules cancéreuses pulmonaires et colorectales pour former l’algorithme avant de l’appliquer à des ensembles de données d’autres types de tumeurs.
Dans la phase d’entraînement, ikarus devait trouver une liste de gènes caractéristiques qu’il utilisait ensuite pour catégoriser les cellules. « Nous avons essayé et affiné diverses approches », explique Dohmen. C’était un travail de longue haleine, comme le racontent les trois scientifiques. « La clé était pour ikarus d’utiliser finalement deux listes : une pour les gènes du cancer et une pour les gènes d’autres cellules », explique Franke. Après la phase d’apprentissage, l’algorithme a pu distinguer de manière fiable les cellules saines des cellules tumorales dans d’autres types de cancer également, comme dans des échantillons de tissus provenant de patients atteints d’un cancer du foie ou d’un neuroblastome. Son taux de réussite avait tendance à être extraordinairement élevé, ce qui a surpris même le groupe de recherche. « Nous ne nous attendions pas à ce qu’il y ait une signature commune qui définisse si précisément les cellules tumorales de différents types de cancer », explique Akalin. « Mais nous ne pouvons toujours pas dire si la méthode fonctionne pour tous les types de cancer », ajoute Dohmen. Pour faire d’ikarus un outil fiable de diagnostic du cancer, les chercheurs veulent maintenant le tester sur d’autres types de tumeurs.
L’IA comme outil de diagnostic entièrement automatisé
Le projet vise à aller bien au-delà de la classification des cellules « saines » versus « cancéreuses ». Lors des premiers tests, ikarus a déjà démontré que la méthode peut également distinguer d’autres types (et certains sous-types) de cellules des cellules tumorales. « Nous voulons rendre l’approche plus complète », déclare Akalin, « en la développant davantage afin qu’elle puisse faire la distinction entre tous les types de cellules possibles dans une biopsie ».
Dans les hôpitaux, les pathologistes ont tendance à n’examiner que des échantillons de tissus de tumeurs au microscope afin d’identifier les différents types de cellules. C’est un travail laborieux et chronophage. Avec ikarus, cette étape pourrait un jour devenir un processus entièrement automatisé. En outre, note Akalin, les données pourraient être utilisées pour tirer des conclusions sur l’environnement immédiat de la tumeur. Et cela pourrait aider les médecins à choisir la meilleure thérapie. Car la composition du tissu cancéreux et le microenvironnement indiquent souvent si un certain traitement ou médicament sera efficace ou non. De plus, l’IA peut également être utile pour développer de nouveaux médicaments. « Ikarus nous permet d’identifier les gènes qui sont des moteurs potentiels du cancer », explique Akalin. De nouveaux agents thérapeutiques pourraient alors être utilisés pour cibler ces structures moléculaires.
Collaboration domicile-bureau
Un aspect remarquable de la publication est qu’elle a été entièrement préparée pendant la pandémie de COVID. Toutes les personnes impliquées n’étaient pas à leurs bureaux habituels à l’Institut de biologie des systèmes médicaux de Berlin (BIMSB), qui fait partie du MDC. Au lieu de cela, ils étaient dans des bureaux à domicile et ne communiquaient entre eux que par voie numérique. Pour Franke, donc, « le projet montre qu’une structure numérique peut être créée pour faciliter le travail scientifique dans ces conditions. »