Dans une étude récente publiée dans Rapports de celluleles chercheurs ont effectué une analyse génomique pour étudier l’origine des microprotéines humaines d’importance biologique.
Des études ont rapporté que les sORF (petits cadres de lecture ouverts) codent pour des microprotéines fonctionnelles essentielles à plusieurs processus biologiques. Cependant, l’origine et la conservation de ces microprotéines n’ont pas été bien caractérisées. L’analyse génomique des microprotéines pourrait approfondir la compréhension des caractéristiques génomiques humaines essentielles à la fonctionnalité.
À propos de l’étude
Dans la présente étude, les chercheurs ont étudié l’origine des microprotéines humaines fonctionnelles. Ils ont étudié des cas dans lesquels les protéines ont évolué à partir de séquences non codantes et ont acquis une importance biologique.
L’étude comprenait des cadres de lecture ouverts traduits dans une étude précédente (Chen et al) et ont été rapportés dans l’ensemble de données de transcriptome humain FANTCOM-CAT par Hon et al. L’analyse a été restreinte aux ORF situés sur des transcrits non codants (« nouveaux »), situés en amont des gènes ORF codants (« amont »), situés en aval des ORF codants (« aval ») ou situés sur des transcrits dépourvus de gènes ORF codants mais appartenant aux familles de transcription avec un membre de codage (‘new_iso’). L’équipe a apparié les gènes ORF des deux études précédentes susmentionnées sur la base de leur similitude de coordonnées chromosomiques, de leurs identités de séquence à 100,0 % et de leurs longueurs comparables.
Au total, 715 ORF, situés sur 527 transcrits, ont été analysés. Données sur les effets de la condition physique, les scores phénotypiques et la classification en fonction de leur importance à l’aide de cellules souches pluripotentes induites et obtenues à partir d’études antérieures. Le CPAT (outil d’évaluation du potentiel de codage) a été appliqué aux séquences ORF pour déterminer les scores de probabilité de codage. Les données d’analyse de séquençage de l’acide ribonucléique (ARN-seq) ont été cartographiées sur leurs assemblages génomiques pertinents. L’inférence de la transcription orthologue basée sur les transcriptomes de référence et l’analyse des données d’expression a été réalisée.
En outre, des régions génomiques orthologues ont été identifiées et la présence d’ORF ancestraux a été déduite, après quoi les signatures fonctionnelles ont été évaluées. Pour estimer le moment de l’origine de chaque ORF (c’est-à-dire l’ancêtre le plus ancien avec des ORF intacts), l’équipe a recherché des régions chromosomiques orthologues des ORF humains dans les données génomiques de 99 espèces de vertébrés. L’équipe a aligné les séquences orthologues de tous les ORF soumis à l’analyse PhyloCSF (fréquences de substitution des codons phylogénétiques). Une analyse ASR (reconstruction de séquence ancestrale) a été effectuée pour déduire l’absence ou la présence d’ORF au niveau des nœuds d’ancêtres humains en fonction des longueurs d’ORF.
Le moment de l’origine des microprotéines a été considéré en fonction du premier nœud auquel les ORF et les transcrits étaient détectables (origine putative) et était indépendant du mode d’origine. Dans le cas où des ancêtres dépourvus d’ORF intacts précédaient des ancêtres possédant des ORF intacts, le mode d’origine était appelé de novo. Les données sur les moments d’origine des ORF et des transcrits ont été combinées pour déduire le moment d’origine des microprotéines avec de novo origine. Évaluer l’effet des longueurs ORF, strictes (50 %) et relâchées (80 %) de novo les valeurs d’attribution ont été évaluées. L’équipe a étudié l’importance/fonctionnalité biologique de la de novo-microprotéines émergées. Tous les polymorphismes mononucléotidiques (SNP) connus annotés comme pathogènes ou probablement pathogènes ont été étudiés.
Résultats
Sur 715 ORF analysés, de novo l’origine a été déduite par l’équipe pour 155 ORF, avec des nœuds d’origine similaires pour 148 ORF et 102 ORF, sur la base des seuils assouplis et plus stricts, respectivement. De novo-Les ORF d’origine en amont et en aval ont montré l’origine de l’ARN en premier. Les résultats ont indiqué une naissance continue de microprotéines fonctionnelles de novo de la période évolutive initiale des mammifères.
L’équipe a identifié 19 microprotéines fonctionnelles d’origine putative qui ont émergé de novo, dont 12 et sept étaient respectivement codés sur de longs ARN non codants (lncARN) et des transcrits codants. Deux microprotéines biologiquement importantes, CATP00001296115.1 et CATP00000751060.1, se sont avérées avoir une scission post-chimpanzé-humain d’origine putative. Les deux protéines ont été exprimées à partir d’ARNlnc et avaient une première origine ORF avec de courts intervalles de temps entre le moment d’origine des ORF et les transcrits spécifiques à l’homme (moments d’origine ORF à Simiiformes et Hominoïdes).
Les conclusions ont indiqué que de novo-les microprotéines émergées pourraient fonctionner sur de courtes périodes évolutives. De 44 de novomicroprotéines fonctionnelles d’origine, aucune ne s’est avérée codante, sur la base de l’analyse de PhyloCSF et de l’ARNcode, et les scores de profilage des ribosomes prédisaient quatre d’entre elles comme codantes. Deux « nouveaux » ORF d’origine putative à Euteleostomi ont été déterminés comme codage sur la base de l’analyse PhyloCSF et CPAT.
Sur sept ORF « en amont », le jeune CATP0000 0415540.1, a montré un non-codage et de novo origine à la Simiiformes. Trois SNP ont été identifiés comme pathogènes/probablement pathogènes. ORF fonctionnel CATP00000063293.1 (en amont, de novo origine, origine putative à Simiiformes) comprenait un SNP pathogène [SNP database (dbSNP): rs1555735545], lié à la dystrophie musculaire des ceintures. Un autre SNP a été trouvé sur le « nouveau » ORF codant CATP00 000005301.1 (dbSNP : rs1238109100) et était probablement pathogène en association avec la rétinite pigmentaire. Le troisième SNP chevauchait l’ORF CATP00000363722.1 (dbSNP : rs1560929898), était non codant et lié au syndrome d’Alazami.
CATP00001771233.1 ORF illustre un gain rapide de fonctionnalité parmi de novo-ORFs émergés, avec un timing d’origine chez l’ancêtre humain-chimpanzé. Chez les chimpanzés, le locus n’était transcriptionnellement actif que dans les tissus cardiaques. Chez l’homme, le gène était fortement exprimé lors de l’induction des mélanocytes. Identification de la région génomique orthologue dépourvue d’ORF chez des espèces évolutivement éloignées telles que les tatous, les résultats de l’ASR et l’absence de correspondances protéomiques des vertébrés et autres dans la base de données NCBI (centre national d’information sur la biotechnologie) indiquée de novo origine.
Dans l’ensemble, les résultats de l’étude ont mis en évidence des microprotéines fonctionnelles de novo à partir de séquences non codantes dans la lignée humaine.