De l’Amazonie à l’Asie, des recherches révolutionnaires cartographient la diversité microbienne de nos intestins, mettant en lumière la nécessité de disposer de données mondiales inclusives.
Étude : L'intégration de 168 000 échantillons révèle des schémas globaux du microbiome intestinal humain
Dans une étude récente publiée dans la revue Celluleles chercheurs ont identifié les facteurs globaux et techniques influençant la variation du microbiome intestinal humain à l'aide d'un ensemble de données à grande échelle et uniformément traitées de 168 464 échantillons.
Sommaire
Arrière-plan
Le microbiome humain joue un rôle essentiel dans la santé et la maladie, avec des différences de composition liées à des affections telles que le cancer colorectal et les maladies inflammatoires de l'intestin. La variation de la composition du microbiome est influencée par des facteurs tels que la génétique de l’hôte, le régime alimentaire, l’utilisation d’antibiotiques et la région géographique.
Les habitudes alimentaires, la consommation d’antibiotiques et les pratiques culturelles varient à l’échelle mondiale, ce qui a un impact sur le microbiote intestinal. Par exemple, l’article note des changements dans le microbiome des immigrants arrivant aux États-Unis en provenance de régions comme la Thaïlande et l’Amérique latine. Cependant, la plupart des recherches se concentrent de manière disproportionnée sur les pays à revenu élevé, laissant de nombreuses populations sous-représentées.
Des facteurs techniques tels que les méthodes d’extraction de l’ADN et la sélection des amorces compliquent encore l’analyse. Les bases de données de référence comme SILVA (projet de base de données sur les gènes de l'ARN ribosomal SILVA) sont biaisées en faveur des microbiomes occidentaux, sous-estimant potentiellement la diversité dans les régions sous-représentées. Des recherches plus approfondies sont essentielles pour comprendre de manière globale la variation du microbiome et ses implications pour l’équité en santé mondiale.
À propos de l'étude
L'étude a récupéré des données de séquençage accessibles au public à partir du Sequence Read Archive (SRA) dans la catégorie « métagénome intestinal humain » en octobre 2021. Les métadonnées associées à ces échantillons ont été examinées et les échantillons classés comme « génomiques » ou « métagénomiques » avec un « stratégie de bibliothèque » de « amplicon » ont été inclus, totalisant 245 627 échantillons. Un filtrage plus poussé a supprimé les BioProjects comportant des erreurs, plusieurs plates-formes de séquençage ou moins de 50 échantillons, ce qui a donné 234 875 échantillons provenant de 811 BioProjects. Les données de pyroséquençage et les échantillons traités avec des technologies non Illumina ont été exclus pour garantir la cohérence. Les incohérences des métadonnées, telles que les instruments de séquençage mal étiquetés, ont été corrigées afin de conserver les échantillons pertinents.
Les données de séquençage ont été téléchargées à l'aide de la boîte à outils SRA, en traitant les lectures appariées et simples avec l'algorithme de débruitage d'amplicon divisif 2 (DADA2). Les lectures de mauvaise qualité ont été supprimées, telles que celles de moins de 20 nucléotides ou contenant des bases ambiguës. Les affectations taxonomiques ont été réalisées à l'aide de la base de données SILVA (v138.0), avec des mises à jour de taxonomie reflétant les dernières modifications de nomenclature. Les étapes de filtrage excluaient les échantillons avec des lectures insuffisantes, des proportions élevées de taxons non attribués ou des lectures chimériques excessives (> 25 % dans certains bioprojets).
Pour la plupart des échantillons, le pays et la région d'origine ont été déduits des métadonnées, et la diversité géographique a été analysée en consolidant les données dans huit régions du monde. Les régions ont suivi les classifications des objectifs de développement durable (ODD) des Nations Unies, telles que « Asie de l'Est et du Sud-Est » (et non « Asie de l'Est »). La richesse taxonomique et la variation du microbiome selon les régions ont été examinées.
Résultats de l'étude
Pour générer le Human Microbiome Compendium, les chercheurs ont identifié 245 627 échantillons de séquençage d’amplicons de gènes d’ARNr 16S accessibles au public à partir de la base de données BioSample maintenue par le NCBI. L'accent était mis sur les tests basés sur Illumina, à l'exclusion des données de pyroséquençage et de séquençage à lecture longue. À l'aide de DADA2, des tableaux taxonomiques ont été générés pour chaque BioProject, quantifiant les variantes de séquence d'amplicons (ASV) et les classant au niveau du genre sur la base de la référence SILVA. L'ensemble de données final comprenait 168 464 échantillons provenant de 68 pays, comprenant 5,57 térabases de données de séquençage traitées via un pipeline uniforme.
Des outils d'annotation automatisés et une conservation manuelle ont été utilisés pour déduire des métadonnées telles que le pays d'origine, les kits d'extraction d'ADN et le choix de l'amplicon. Cela a permis une quantification à l’échelle mondiale de la composition du microbiome intestinal. Un sous-ensemble filtré de 150 721 échantillons de haute qualité a été créé en excluant les échantillons comportant moins de 10 000 lectures ou des taxons rares. Bacillota (anciennement Firmicutes) a été identifié comme le phylum le plus répandu, trouvé dans 99,9 % des échantillons, suivi par Pseudomonadota (anciennement Proteobacteria), Actinomycetota (anciennement Actinobacteria) et Bacteroidota (anciennement Bacteroidetes). La diversité alpha, mesurée par l'indice de diversité de Shannon, a montré de larges variations, avec une médiane de 2,33 et des valeurs aussi élevées que 5,07. L'analyse de la raréfaction a révélé que des taxons au niveau du genre sont encore découverts, en particulier dans les régions sous-représentées.
Les différences géographiques dans la composition du microbiome ont été examinées à l’aide des métadonnées disponibles pour 92,4 % des échantillons. L'Europe et l'Amérique du Nord représentaient la majorité des échantillons (60,5 %), avec une sous-représentation significative de régions comme l'Asie centrale et du Sud (3,4 %) et l'Afrique subsaharienne (3,7 %). L’Amérique latine et les Caraïbes présentaient la diversité alpha la plus élevée (indice médian de diversité de Shannon = 2,69), tandis que l’Asie centrale et du Sud présentait la plus faible (médiane = 1,68). L'analyse de la diversité phylogénétique (PD) de Faith a montré que la combinaison de taxons de régions sous-représentées avec l'Europe et l'Amérique du Nord a augmenté la longueur des branches évolutives jusqu'à 68,6 %. L'analyse des coordonnées principales (PCoA) utilisant la distance d'Aitchison a révélé des groupes distincts correspondant aux régions du monde, soulignant la forte influence de la géographie sur la composition du microbiome.
Il a été constaté que des facteurs techniques, notamment les méthodes d’extraction de l’ADN, le battage des billes (lyse mécanique), le choix des amplicons et la profondeur du séquençage, influencent de manière significative la variation du microbiome. Par exemple, des taxons tels qu'Enterobacter (plus élevé dans les amplicons V3 – V4) et Akkermansia (plus élevé dans les amplicons V4) présentaient des abondances différentielles en fonction de la région hypervariable du gène de l'ARNr 16S utilisé pour le séquençage. L'interaction entre le choix de la région et de l'amplicon a eu un effet plus substantiel (R² = 0,010) que l'amplicon seul. Des régions comme l’Amérique latine et l’Afrique subsaharienne présentaient les proportions les plus élevées de taxons non identifiés, liées aux biais des bases de données de référence, ce qui suggère un sous-échantillonnage et un potentiel de diversité microbienne non observée.
Des classificateurs forestiers aléatoires ont été formés pour prédire la région géographique d’origine d’échantillons individuels de microbiome. Ils ont atteint une précision élevée pour des régions comme l’Australie et la Nouvelle-Zélande (AUC = 0,944), tandis que l’Europe et l’Amérique du Nord avaient une précision prédictive plus faible (AUC = 0,797), probablement en raison d’une surreprésentation créant des clusters qui se chevauchent.
Conclusions
Les chercheurs ont intégré les données de 168 464 échantillons de séquençage d’amplicons de gènes d’ARNr 16S accessibles au public provenant de 482 BioProjects pour étudier la variation mondiale du microbiome intestinal humain. La plupart des échantillons proviennent d'Europe et d'Amérique du Nord, régions si largement échantillonnées que la plupart des taxons microbiens sont probablement déjà observés, tandis que d'autres régions, comme l'Amérique latine et l'Asie de l'Est et du Sud-Est, présentent une diversité remarquable avec de nombreux taxons encore inconnus. Chaque région occupe une niche unique au sein de l’espace d’ordination, comme le révèlent la mise à l’échelle multidimensionnelle et la classification de l’apprentissage automatique.
Des différences significatives en matière de microbiome ont été constatées d’une région à l’autre, notamment Bactéroides abondance en Europe/Amérique du Nord et augmentation Prévotelle en Afrique subsaharienne et en Amérique latine. Des facteurs techniques tels que le choix de l'amplicon ont influencé les résultats, le biais d'amorce affectant des taxons comme les archées méthanogènes Méthanobrevibactérie. Ce recueil constitue une ressource précieuse pour explorer la diversité du microbiome et faire progresser la recherche mondiale sur l’écologie microbienne.















