Les chercheurs d’UVA Health ont développé un nouvel outil important pour aider les scientifiques à trier le signal du bruit lorsqu’ils sondent les causes génétiques du cancer et d’autres maladies. En plus de faire avancer la recherche et d’accélérer potentiellement de nouveaux traitements, le nouvel outil pourrait contribuer à améliorer le diagnostic du cancer en facilitant la détection des cellules cancéreuses par les médecins.
Développé par Chongzhi Zang, PhD, de l’UVA, et son équipe et ses collaborateurs, le nouvel outil est un modèle mathématique qui aidera à assurer l’intégrité des « big data » sur les éléments constitutifs de nos chromosomes, le matériel génétique appelé chromatine. La chromatine – une combinaison d’ADN et de protéines – joue un rôle important dans la direction de l’activité de nos gènes. Lorsque la chromatine tourne mal, elle peut transformer une cellule saine en cancer ou contribuer à d’autres maladies.
Les scientifiques peuvent désormais étudier la chromatine dans des cellules individuelles à l’aide d’une technologie de pointe appelée « ATAC-seq à cellule unique », mais cela génère une énorme quantité de données, y compris beaucoup de bruit et de biais. Le nouvel outil de Zang résout ce problème, sauvant les scientifiques des fausses pistes et des efforts inutiles.
Dans le meilleur des cas, la recherche à grande échelle sur la génomique unicellulaire revient à « chercher une aiguille dans une botte de foin », déclare Zang. Mais son nouvel outil facilitera grandement les choses en éliminant beaucoup de mauvais foin.
En utilisant la méthode traditionnelle d’analyse des données, vous pouvez voir des modèles qui ressemblent à de vrais signaux d’un état de chromatine particulier, mais ils sont en fait faux en raison du biais de la technologie expérimentale elle-même. De tels faux signaux peuvent dérouter les scientifiques. Nous avons développé un modèle pour mieux capturer et filtrer ces faux signaux, afin que la vraie aiguille que nous recherchions puisse plus facilement se démarquer du foin. »
Chongzhi Zang, PhD, biologiste computationnel avec le Centre de génomique de la santé publique de l’UVA et le Centre de cancérologie de la santé UVA
À propos de l’outil de génomique
Le nouvel outil de Zang adapte un modèle de la théorie des nombres et de la cryptologie appelé « encodage simplex ». Lui et ses collègues l’ont utilisé pour coder des séquences d’ADN sous des formes mathématiques et, finalement, convertir la séquence complexe du génome en une forme mathématique beaucoup plus simple. Ils peuvent ensuite comparer différentes formes pour détecter les biais et le bruit dans les données de séquence qui ne peuvent pas être trouvés facilement à l’aide d’approches conventionnelles.
« La complexité des séquences d’ADN augmente de façon exponentielle lorsqu’elles s’allongent. Elles sont difficiles à modéliser car un ensemble de données typique contient des millions de séquences provenant de milliers de cellules », a déclaré Shengen Shawn Hu, PhD, chercheur au laboratoire de Zang et auteur principal de ce travail. « Mais le modèle de codage simplex peut donner une estimation précise des biais de séquence en raison de sa belle propriété mathématique. »
Les tests de l’outil ont montré qu’il était nettement meilleur pour analyser des données complexes sur une seule cellule afin de caractériser différents types de cellules. Ceci est important à la fois pour la recherche fondamentale en biologie et pour le diagnostic des maladies, dans lesquelles les médecins doivent détecter un nombre infime de cellules malades dans des échantillons beaucoup plus grands, allant de dizaines de milliers à des millions de cellules.
« Les biais n’étaient pas faciles à trouver car ils étaient enchevêtrés avec des signaux réels et cachés dans les mégadonnées. Ce n’est peut-être pas grave si les gens ne choisissent que les signaux les plus forts à partir d’un grand nombre de cellules », a déclaré Zang, qui a récemment co-dirigé plusieurs autres recherches en génomique unicellulaire dans l’étude de la maladie coronarienne et du développement intestinal. « Mais lorsque vous regardez des données unicellulaires, il n’y a plus de fruits à portée de main. Les signaux sont toujours faibles au niveau de la cellule individuelle, et l’effet du bruit et des biais peut être catastrophique. La correction des biais est souvent ignorée mais peut être vital dans l’analyse des données unicellulaires. »
Pour rendre leur nouvel outil largement disponible, les chercheurs ont créé un logiciel libre et open source et l’ont mis en ligne. Le logiciel est disponible sur https://github.com/zang-lab/SELMA et sur https://doi.org/10.5281/zenodo.7048767.
« Nous espérons que cet outil pourra bénéficier à la communauté de la recherche biomédicale dans l’étude de la biologie et de la génomique de la chromatine, et éventuellement aider la recherche sur les maladies », a déclaré Zang. « C’est toujours excitant de voir nos pairs utiliser les outils que nous avons développés pour faire d’importantes découvertes scientifiques dans leurs propres recherches. »
Résultats publiés
Les chercheurs ont publié leurs découvertes dans la revue scientifique Communication Nature. (L’article est en libre accès, ce qui signifie qu’il est libre de lire.) L’équipe était composée de Shengen Shawn Hu, Lin Liu, Qi Li, Wenjing Ma, Michael J. Guertin, Clifford A. Meyer, Ke Deng, Tingting Zhang et Chongzhi Zang .
Zang fait partie des départements des sciences de la santé publique, de la biochimie et de la génétique moléculaire et du génie biomédical de l’UVA. Le Département de génie biomédical est une collaboration de l’École de médecine et de l’École d’ingénierie de l’UVA.
Le travail a été soutenu par les National Institutes of Health, subventions R35GM133712, K22CA204439 et R35GM128635 ; la National Science Foundation, subvention NSF-796 2048991; le Centre d’informatique de recherche de l’Université de Pittsburgh ; Centre de lutte contre le cancer UVA ; et le NIH’s National Cancer Institute, Cancer Center Support Grant P30 CA44579.