Des chercheurs du Turku Bioscience Center de l’Université de Turku, en Finlande, ont développé une nouvelle méthode informatique pour interpréter les données complexes d’une seule cellule. La méthode aide les chercheurs à identifier et à regrouper les types de cellules dans les échantillons.
Le corps humain contient environ 37 000 milliards de cellules. Certains se ressemblent plus que d’autres, mais jamais exactement les mêmes. Les technologies modernes unicellulaires permettent de caractériser cette hétérogénéité cellulaire, en mesurant simultanément des dizaines, voire des milliers de molécules, telles que des gènes ou des protéines, dans des milliers de cellules individuelles et en fournissant des informations sur la santé et les maladies.
Une petite quantité de sang contient des milliards de globules rouges et des millions de cellules immunitaires. Chaque type de cellule possède sa propre « empreinte » moléculaire, que les chercheurs peuvent identifier en combinant des technologies monocellulaires avec des méthodes informatiques.
Lorsqu’ils étudient plusieurs échantillons différents, les scientifiques doivent d’abord faire correspondre les mêmes types de cellules dans les échantillons. Il s’agit d’une étape exigeante appelée intégration des données.
Cependant, les méthodes d’intégration actuelles rencontrent souvent des difficultés lorsque les types de cellules varient d’un échantillon à l’autre ou apparaissent en quantités très différentes. Dans de tels cas de données déséquilibrées, les méthodes peuvent combiner par erreur des types de cellules distincts.
Pour résoudre ce problème, des chercheurs de l’Université de Turku ont développé un nouvel algorithme basé sur l’apprentissage automatique qui intègre efficacement même les données déséquilibrées entre les échantillons. La méthode, appelée Coralysis, a été développée au Turku Bioscience Center dans le groupe de recherche en biomédecine computationnelle du professeur Laura Elo, qui est également affilié au programme phare de recherche InFLAMES.
« Les technologies unicellulaires nous permettent d'étudier l'incroyable diversité des cellules, mais les comparer entre échantillons est délicat. Cela nous a motivé à développer une méthode permettant de découvrir de manière fiable ces modèles cachés », explique le professeur agrégé Sini Junttila, l'un des superviseurs de l'étude.
Outil open source efficace
Nous avons été inspirés par le processus d'assemblage d'un puzzle, où l'on commence par regrouper les pièces en fonction de caractéristiques de bas à haut niveau, telles que la couleur et l'ombrage, avant d'examiner la forme et les motifs. De même, notre algorithme intègre progressivement les identités cellulaires à travers plusieurs cycles de regroupement diviseur. »
António Sousa, chercheur doctorant, développeur principal de Coralysis
Coralysis a été implémenté en tant que logiciel open source. À la base, il s’appuie sur l’apprentissage automatique, ce qui lui permet de créer des modèles pouvant être utilisés pour prédire les identités cellulaires dans de nouveaux ensembles de données et même d’estimer le degré de confiance des prédictions. Cela aide les chercheurs à éviter la tâche fastidieuse et souvent peu fiable consistant à identifier manuellement les types de cellules. Une autre caractéristique unique de Coralysis est sa capacité à détecter des changements dans les états cellulaires qui autrement pourraient passer inaperçus.
« Coralysis offre à la communauté scientifique une nouvelle façon d'étudier la diversité cellulaire et d'acquérir une compréhension plus approfondie des données complexes unicellulaires. En les rendant librement disponibles, nous espérons soutenir la collaboration et accélérer les découvertes au sein de la communauté mondiale de la recherche », déclare le professeur Laura Elo, chercheuse principale du projet.
L'étude du groupe de recherche d'Elo a été publiée dans la revue scientifique Recherche sur les acides nucléiques.























