Étude : Un catalogue de petites protéines du microbiome mondial. Crédit photo : Pakpoom Nunjui / Shutterstock
Sommaire
Cartographier le monde caché : découvrez comment ce catalogue révolutionnaire de près d'un milliard de petites protéines est sur le point de transformer notre compréhension de la vie microbienne.
Dans une étude récente publiée dans la revue Nature Communications, Les chercheurs ont analysé les données de plus de 63 000 métagénomes et de près de 88 000 génomes isolés pour construire un nouveau catalogue mondial de petits cadres de lecture ouverts microbiens (GMSC). Le catalogue s'appuie sur des techniques de protéogénomique et de génomique comparative de pointe pour annoter de manière exhaustive plus de 964 millions de smORF non redondants dans 75 habitats, une échelle environ 20 fois supérieure à tout travail smORF précédent.
Les chercheurs ont développé et publié un outil d'identification et d'annotation accessible au public, appelé « GMSC-mapper », permettant aux études futures de caractériser leurs ensembles de données métagénomiques microbiennes rapidement et avec une précision considérablement améliorée par rapport à ce qui était possible auparavant. Enfin, cette étude identifie que les archées contiennent une proportion significativement plus élevée de smORF que les bactéries, ce qui suggère un rôle plus complexe des petites protéines dans la biologie des archées et souligne la diversité substantielle des petites protéines dans l'écologie du microbiome.
Arrière-plan
Les petits cadres ouverts de lecture (smORF) sont de courts segments d'ADN (< 100 codons) qui apparaissent fréquemment dans les génomes et peuvent coder des peptides putatifs. On les trouve dans les trois domaines des organismes et on estime qu'ils constituent entre 5 et 10 % de tous les gènes annotés. Auparavant considérés comme constituant de l'ADN « poubelle » non fonctionnel, un nombre croissant de modèles de prédiction précoce et d'études récentes révèlent leurs rôles biologiques importants dans les réponses au stress, l'expression des gènes, les fonctions d'entretien, les voies de signalisation, les activités antimicrobiennes et la photosynthèse, en particulier chez les micro-organismes.
Malheureusement, les techniques conventionnelles de découverte de protéines sont confrontées à des défis considérables dans l’exploitation des données génomiques pour identifier et caractériser de manière fiable les smORF, ce qui entraîne leur négligence généralisée dans les recherches métagénomiques sur le microbiome. Les progrès récents dans la génomique comparative à haut débit, le Ribo-Seq et la protéogénomique ont abordé les aspects techniques de ces défis. Cependant, le grand nombre de smORF potentiels et le risque de prédictions faussement positives de smORF ont jusqu’à présent limité le développement d’une base de données mondiale de smORF, entravant les efforts de recherche associés au microbiome.
« …la plupart des études axées sur les smORFs s’intéressent à des micro-organismes isolés et à des environnements spécifiques. La compréhension fonctionnelle et écologique des smORFs microbiens à l’échelle mondiale dans différents habitats est encore très limitée. »
À propos de l'étude
La présente étude applique le principe des « observations indépendantes répétées » de peptides putatifs dérivés de smORF très similaires pour minimiser théoriquement les prédictions de smORF faussement positives, permettant ainsi le développement d'un catalogue mondial de smORF microbiens (GMSC). Les données de l'étude proviennent de la base de données SPIRE (63 410 métagénomes assemblés) et de la base de données ProGenomes2 (87 920 génomes isolés).
Les lectures identifiées ≥ 60 paires de bases (pb) ont été assemblées en contigs à l'aide du logiciel MEGAHIT 1.2.9. Ces contigs ont ensuite été soumis à un algorithme Prodigal modifié pour identifier les smORF. Les smORF putatifs ont été étiquetés avec leur microontologie d'habitat (8 catégories) à l'aide de la base de données SPIRE et leurs aires de répartition géographique à l'aide de la plateforme GeoPandas.
L'algorithme heuristique Linclust a ensuite été utilisé pour construire un catalogue smORF non redondant en utilisant une approche de clustering hiérarchique, identifiant ainsi des clusters à séquence unique (singletons). Pour valider ces clusters et éviter les duplications de smORF, les chercheurs ont soigneusement estimé les taux de singletons faussement négatifs, en tenant compte de ceux qui comprenaient des séquences homologues biologiquement significatives. Enfin, pour tester la qualité des smORF identifiés, les chercheurs ont effectué des tests de qualité in silico approfondis (CQ) et ont croisé les résultats obtenus avec des bases de données de séquences protéiques préexistantes (ensembles de données RefSeq et petites familles de protéines du microbiome humain). Les smORF qui ont réussi tous les CQ ont été étiquetés « de haute qualité ».
Pour améliorer l'utilité et la convivialité du catalogue, les chercheurs ont développé un outil de caractérisation et d'annotation appelé « GMSC-mapper ». L'outil peut analyser un métagénome présenté et identifier et annoter automatiquement les petites protéines (peptides putatifs) à partir de l'ensemble de données métagénomiques. Pour valider et démontrer l'utilité du catalogue et de l'outil résultants, les chercheurs ont analysé les métagénomes archaïques et bactériens de RefSeq. Ils ont utilisé leur nouvel outil pour comparer les densités de smORFs dans ces deux domaines de la vie.
Résultats de l'étude
Les premiers résultats de l'algorithme Prodigal ont permis d'identifier 2,72 milliards de smORF potentiels, dont 84,7 % ont été classés comme « singletons ». Une analyse de dépistage des faux positifs ultérieure a réduit ces smORF putatifs à 964 970 496 smORF, constituant le catalogue GMSC.
Il est à noter que, bien que ce catalogue de smORF de près d'un milliard soit environ 20 fois plus grand que celui précédemment identifié, l'analyse de raréfaction suggère que cela ne représente qu'une fraction de la diversité smORF disponible à l'échelle mondiale.
Le contrôle qualité in silico et la comparaison des prédictions génomiques de la base de données supplémentaire ont révélé que 43 642 695 (4,5 %) des données de la base de données GMSC étaient de « haute qualité ». Chaque prédiction de haute qualité a été étiquetée avec des annotations complètes telles que la taxonomie, les habitats et (si disponibles) la fonction biologique.
« Pour évaluer l’exhaustivité de notre catalogue, nous avons comparé les petites protéines codées par les smORFs GMSC à la base de données RefSeq et aux ensembles de données sur les petites familles de protéines du microbiome humain précédemment publiés. Seuls 5,3 % des smORFs de notre catalogue sont homologues à ces petites protéines précédemment rapportées. En revanche, notre catalogue contient plus de 80 % de ces ensembles de données de référence. »
Les comparaisons de densité de smORF basées sur le GMSC-mapper ont révélé que les archées contiennent des proportions de smORF sensiblement plus élevées que les bactéries malgré un échantillonnage significativement plus faible (18 phylums archéens contre 131 phylums bactériens). Cette découverte soulève des questions intrigantes sur la diversité fonctionnelle des petites protéines et leur signification évolutive chez les archées. Malheureusement, compte tenu des limites de la littérature métagénomique archéenne actuelle, les prédictions des fonctions biologiques des smORF dans ces formes de vie n'ont pas pu être suffisamment vérifiées.
Conclusions
La présente étude présente le développement du premier catalogue mondial de petits cadres de lecture ouverts microbiens appelé GMSC version 1 (GMSCv1). Le catalogue comprend près d'un milliard de smORF prédits, soit une augmentation d'environ 20 fois par rapport aux smORF connus jusqu'à présent. Parmi ceux-ci, 43 millions de smORF ont été vérifiés par contrôle qualité comme étant de « haute qualité », tous ayant été annotés de manière exhaustive avec leur taxon respectif, leur fonction biologique potentielle, leur géographie et leur habitat.
Les chercheurs ont également développé et validé un outil d’annotation automatisé (GMSC-mapper) capable de filtrer un ensemble de données (méta)génomiques et de caractériser efficacement la diversité des smORF qu’il contient.
Ensemble, les résultats de cette étude, accessibles au public, offrent aux chercheurs sur le microbiome un accès aux données sans précédent, ouvrant la voie à une nouvelle ère dans le domaine très sous-exploré de la découverte de petites protéines.