Les organismes microscopiques qui remplissent notre corps, nos sols, nos océans et notre atmosphère jouent un rôle essentiel dans la santé humaine et dans les écosystèmes de la planète. Pourtant, même avec le séquençage moderne de l’ADN, il reste extrêmement difficile de déterminer ce que sont ces microbes et comment ils sont liés les uns aux autres.
Dans deux nouvelles études, des chercheurs de l’Arizona State University présentent des outils puissants qui rendent ce travail plus facile, plus précis et beaucoup plus évolutif. Un outil améliore la façon dont les scientifiques construisent des arbres généalogiques microbiens. L'autre fournit une base logicielle utilisée dans le monde entier pour analyser les données biologiques.
Ensemble, ces avancées renforcent les fondements scientifiques de la recherche sur le microbiome, du suivi des maladies, de la surveillance environnementale et de domaines émergents comme la médecine de précision.
Notre équipe crée des outils logiciels open source parce que nous pensons que lorsque tout le monde peut accéder aux outils scientifiques et les étendre, la communauté entière en profite et la découverte s'accélère.
Qiyun Zhu, Université d’État de l’Arizona
Zhu est chercheur au Biodesign Center for Fundamental and Applied Microbiomics et professeur adjoint à l'École des sciences de la vie de l'ASU. Il est rejoint par des collègues de l’ASU et des collaborateurs internationaux.
La première étude, sur l'amélioration des gènes marqueurs, paraît dans la revue Communication naturelle. La deuxième étude, décrivant une bibliothèque de logiciels open source connue sous le nom de scikit-bio, apparaît dans Méthodes naturelles.
Affaire de famille
Construire des arbres évolutifs détaillés et précis est essentiel pour comprendre comment les microbes évoluent et influencent le monde. De meilleurs arbres évolutifs améliorent le suivi des maladies et aident les scientifiques à suivre l’évolution des microbes nocifs au fil du temps. Ils approfondissent également la recherche environnementale, montrant comment les communautés microbiennes réagissent à la pollution ou aux changements climatiques. Une identification microbienne plus claire renforce également les études sur le microbiome intestinal et son rôle dans la santé.
Découvrir les liens entre les microbes commence par choisir les bons gènes marqueurs – les panneaux indicateurs dans l'ADN qui retracent leur histoire évolutive.
Pendant de nombreuses années, les scientifiques se sont appuyés sur le même petit ensemble de gènes marqueurs traditionnels. Mais dans le domaine en pleine expansion de la métagénomique, les chercheurs travaillent désormais avec des millions de génomes, souvent directement à partir d’échantillons environnementaux. La métagénomique permet aux scientifiques de récupérer tout l’ADN d’un environnement et de le séquencer immédiatement, révélant ainsi des communautés entières cachées de microbes.
Ces génomes sont extrêmement précieux, mais ils sont souvent incomplets ou de qualité inégale. Cela rend difficile l’utilisation d’un ensemble fixe de gènes marqueurs et l’attente de résultats évolutifs précis.
Pour résoudre ce problème, Zhu et ses collègues ont contribué au développement de TMarSel (abréviation de Tree-based Marker Selection). Au lieu de choisir les gènes à la main, TMarSel recherche automatiquement parmi des milliers de familles de gènes possibles et sélectionne la combinaison qui construit l'arbre évolutif le plus fiable. Il évalue chaque gène en fonction de sa fréquence, de son caractère informatif et de sa contribution à une image stable et significative des relations microbiennes.
Le résultat est une manière flexible et basée sur les données de créer des arbres microbiens qui fonctionnent bien même pour des groupes d'organismes vastes et diversifiés – et même lorsque de nombreux génomes ne sont que partiellement complets.
Scikit-bio : Ancestry.com pour les microbes
Zhu est également l'un des principaux développeurs de scikit-bio, une vaste bibliothèque de logiciels open source. Scikit-bio donne aux scientifiques les outils dont ils ont besoin pour analyser d'énormes ensembles de données biologiques. Il est particulièrement utile pour étudier les microbiomes, c'est-à-dire les communautés de microbes qui vivent dans un environnement spécifique, comme l'intestin humain.
Les ensembles de données biologiques ne ressemblent à aucun autre type de données : ils sont extrêmement volumineux, très clairsemés et comprennent souvent des milliers de caractéristiques interconnectées. Les programmes standards d’analyse de données ne sont pas conçus pour ce niveau de fragmentation et de complexité. Scikit-bio comble cette lacune en proposant plus de 500 fonctions pour des tâches telles que :
- Comparaison des communautés microbiennes.
- Calculer la diversité.
- Transformation des données de composition.
- Analyser des séquences d'ADN, d'ARN et de protéines.
- Construire et modifier des arbres phylogénétiques.
- Préparation des données pour l'apprentissage automatique.
Le projet est piloté par la communauté, soutenu par plus de 80 contributeurs et maintenu avec des tests et une documentation rigoureux. Il a déjà été cité dans des dizaines de milliers d’articles scientifiques dans les domaines de la médecine, de l’écologie, de la climatologie et de la biologie du cancer. Il est devenu un outil essentiel pour les chercheurs analysant le microbiome et d’autres domaines vastes et riches en données de la biologie moderne.
Une nouvelle ère dans la recherche microbienne
À mesure que les ensembles de données biologiques se développent, des outils comme scikit-bio et TMarSel rendent la recherche à grande échelle plus fiable et reproductible.
Les études renforcent le rôle croissant de l’ASU à l’intersection de la biologie et du calcul. Les travaux de Zhu montrent comment la combinaison d'une vision évolutive et d'un génie logiciel avancé peut produire des outils utilisés par les scientifiques du monde entier.
À mesure que le séquençage de l’ADN continue de devenir plus rapide et moins coûteux, les scientifiques découvriront encore davantage l’univers microbien. Des outils comme TMarSel et scikit-bio garantissent que ce flot de données peut être transformé en véritables connaissances scientifiques.

























