Dans une étude récente publiée dans Frontières de la science végétaleles chercheurs ont présenté l’assemblage du génome de référence du chia.
Arrière-plan
Le chia, une culture vivrière riche en nutriments cultivée principalement dans le sud du Mexique et en Amérique centrale, est cruciale pour la sécurité alimentaire et nutritionnelle à long terme. Les programmes mondiaux d’amélioration des cultures ont augmenté la production céréalière et sauvé plusieurs vies, mais la faim cachée reste un problème important. Il est essentiel de diversifier l’alimentation humaine en y ajoutant des produits issus de cultures mineures riches en nutriments et de cultures orphelines cultivées dans des zones marginalisées afin d’assurer la sécurité alimentaire et nutritionnelle à long terme.
L’accent mis sur ces cultures a accru la demande mondiale, augmenté le nombre de consommateurs et les a rendues utiles pour atténuer les menaces liées au changement climatique. La construction de ressources génétiques pour ces cultures sous-utilisées pourrait améliorer leur fabrication et leur durabilité.
À propos de l’étude
Dans la présente étude, les chercheurs ont étudié le transcriptome du chia.
La recherche impliquait le séquençage génomique, l’analyse transcriptomique des gènes métaboliques (production d’acide rosmarinique, synthèse du mucilage des graines et métabolisme des acides gras) et la découverte d’indicateurs génétiques utiles pour l’amélioration des cultures. Les graines de chia des variétés consanguines de deuxième génération ont été cultivées dans des conteneurs de huit pouces de large avec un sol autoclavé et méticuleusement arrosées dans un environnement de serre contrôlé.
Les jeunes feuilles ont été collectées sur des plants âgés de 14 jours qui avaient été prétraités dans des conditions sombres pendant 2,0 jours, congelés dans une solution d’azote et transportés pour la récupération, le séquençage et l’assemblage de l’acide désoxyribonucléique (ADN) du génome. Ils ont créé deux bibliothèques génétiques Dovetail HiC et une bibliothèque de séquençage d’acide désoxyribonucléique Chicago HighRise pour l’échafaudage génomique. Pour l’assemblage de novo, ils ont utilisé un ensemble de lectures génétiques appariées de 2 x 150 pb obtenues par séquençage de type fusil de chasse. L’ensemble de données initial comprenait 956 millions de paires de lectures de gènes provenant de bibliothèques génétiques appariées.
L’équipe a prédit les répétitions de novo, en combinant six bibliothèques de plantes avec les répétitions de gènes de novo identifiées. Ils ont effectué une estimation de modèles génétiques à l’aide d’ensembles de données biopeptides provenant de cinq espèces et de quatre plantes Lamiacées. Les chercheurs ont utilisé un ensemble de données entraîné avec des indices externes générés à partir d’analyses de séquençage de l’acide ribonucléique (ARN-seq) précédemment publiées de 13 tissus pour l’estimation du modèle génétique.
L’équipe in silico a analysé la présence de signatures biopeptidiques dans le protéome de chia qui peuvent avoir un impact positif sur la santé humaine. Ils ont utilisé une bibliothèque de biopeptides sélectionnés comme sonde pour identifier des signatures de séquence similaires dans les protéines de chia. Le pipeline HiRise a été utilisé pour l’assemblage génomique et l’amélioration de l’échafaudage, prédisant les emplacements subcellulaires des protéines codées par le génome du chia et comparant les rapports récemment publiés sur S. hispanique séquences génomiques à leur assemblage génomique de chia et à leurs cartographies génétiques. Les chercheurs ont créé des classificateurs de sites d’épissage très précis pour filtrer les jonctions d’épissage dans les alignements de lecture RNA-Seq.
Résultats
Le génome du chia s’étendait sur 304 Mo et codait pour 48 090 gènes codant pour des protéines. L’analyse a montré que 42,0 % du génome abritait des informations répétitives et a identifié trois millions de polymorphismes mononucléotidiques (SNP) avec 15 380 régions de répétition de séquence simple (SSR). Les chercheurs ont construit le génome de l’enfant de type haploïde avec une taille de génome de 356 Mo. L’échafaudage HiRise a produit 304 Mo (85 %) de la taille génomique attendue du chia, avec 2 185 échafaudages et une couverture physique projetée de 2 692x.
Le génome séquencé était constitué de 299 Mo d’échafaudages codant pour des chromosomes haploïdes ou des pseudomolécules. Les données de l’atlas transcriptomique récemment publiées à partir de 13 échantillons de tissus cartographiés sur les six plus grands échafaudages ont fourni 99,0 % des transcriptions générées de novo. Les résultats ont indiqué que les six échafaudages couvrent presque toutes les zones transcrites et correspondent aux chromosomes haploïdes. En détectant son contenu en répétitions, l’assemblage du génome a été masqué en répétition, représentant 42 % du génome de chia. Les séquences répétées les plus répandues (99,6 Mo) n’ont pas été classées, ce qui indique qu’elles n’ont pas été trouvées dans les bases de données publiques.
Pour l’estimation du modèle génétique et l’évaluation en aval, les chercheurs n’ont utilisé que six pseudomolécules (Sh1-6). Pour générer des modèles génétiques non redondants et complets, 48 743 gènes codant pour des protéines ont été filtrés par filtrage, analyse et conversion génétiques (gFAC). Le génome du chia contenait 799 gènes d’acide ribonucléique de transfert (ARNt), soit 30 et 70 % de gènes de plus que ceux de la tomate et d’Arabidopsis, respectivement. L’annotation de l’ARN ribosomal (ARNr) a identifié 37 gènes d’ARNr dans le génome, dont dix seulement étaient présents dans les pseudochromosomes. L’équipe a identifié 98 membres des homologues de la famille des lectines du chia sur la base de la similarité des séquences avec les membres de la famille des lectines d’Arabidopsis.
Sur la base des résultats de l’étude, le génome de référence du chia (Salvia hispanica), une culture orpheline riche en nutriments, fournit une couverture presque complète de l’espace génétique et contribue aux ressources de données génomiques. L’assemblage du génome de 304 Mo comprend 2 185 échafaudages couvrant 94 % de l’espace génétique et 48 090 gènes codant pour des protéines. L’équipe propose une dénomination cohérente des chromosomes de chia et une nomenclature du génome de référence basée sur le nombre de chromosomes et l’emplacement des gènes dans les pseudochromosomes. L’harmonisation du génome et de la nomenclature des gènes est une priorité élevée.