Dans une revue récente publiée dans Natureun groupe d’auteurs a examiné les progrès et les défis liés à l’annotation du génome humain, y compris les gènes codant pour les protéines, les isoformes et les acides ribonucléiques (ARN) non codants, et a plaidé en faveur d’une norme d’annotation universelle pour une utilisation clinique.
Sommaire
Arrière-plan
Lancé en 1990, le projet Génome humain cherchait à cartographier l’acide désoxyribonucléique (ADN) humain et à identifier tous les gènes. Bien qu’une séquence complète d’ADN ait été obtenue, la compréhension des nuances du génome reste complexe. Initialement perçu comme un référentiel de gènes, nous reconnaissons désormais le réseau complexe de transcriptions alternatives, d’entités non codantes pour les protéines et d’éléments régulateurs du génome. Certaines molécules d’ARN assument même des rôles distincts de leur fonction initiale. Des recherches plus approfondies sont nécessaires, car la compréhension complète des fonctions et des éléments multiformes du génome reste un défi complexe.
Comprendre les gènes codant pour les protéines
Lancé pour analyser l’ADN humain, le projet Génome humain a réalisé des progrès significatifs dans l’annotation des gènes codant pour les protéines. Des bases de données telles que GENCODE et Reference Sequence Database (RefSeq) fournissent des preuves de la traduction et de la fonction de ces gènes. Des progrès tels que des séquences génomiques de haute qualité provenant de diverses espèces et des données de spectrométrie de masse renforcent notre confiance dans l’exactitude de nombreux gènes codant pour des protéines.
Évolution des estimations sur le nombre de gènes
Après avoir séquencé l’ADN, la mission initiale était de documenter chaque gène codant pour une protéine, avec des estimations initiales allant de 50 000 à 100 000 gènes. Ce nombre s’est progressivement réduit à un peu moins de 20 000 aujourd’hui, certaines bases de données suggérant même moins. L’amélioration continue du décompte est attribuée aux progrès technologiques, à un examen rigoureux et à l’amélioration de la qualité des données. Une collaboration connue sous le nom d’Annotation assortie du NCBI et de l’EMBL-EBI (MANE) a joué un rôle déterminant dans la clarté, avec sa version la plus récente suggérant 19 062 locus génétiques.
Orientations futures pour l’annotation des gènes
L’amélioration de l’annotation des gènes implique d’étudier les transcrits des gènes, les structures protéiques et les sites de transcription. Les défis proviennent des limitations du séquençage de l’ARN et des variations génétiques, ce qui rend le décompte précis des isoformes protéiques insaisissable. Au-delà de l’identification des gènes, la distinction des pseudogènes (copies génétiques défectueuses) constitue un autre obstacle. Plus de 14 000 pseudogènes sont annotés, variant dans leurs origines et fonctionnalités. Cependant, les progrès technologiques récents suggèrent que certains pourraient être fonctionnels, soulignant la nature nuancée de la recherche génomique.
Aperçu des gènes d’ARN non codants (ARNnc)
Les gènes ncRNA englobent des molécules d’ARN transcrites à partir d’ADN qui ne se traduisent pas en protéines mais remplissent des fonctions essentielles au sein des cellules. Ces ARNnc peuvent être largement classés en ARNnc longs (ARNnc) d’une longueur d’au moins 200 nucléotides et en ARNnc plus courts, notamment les microARN, les petits ARN nucléolaires et autres. Surtout, une séquence d’ARN n’est considérée comme un gène ncRNA que si elle présente une fonction perceptible.
Détermination fonctionnelle et défis
Bien que les rôles des gènes codant pour les protéines soient plus facilement compris, la définition des fonctions des ARNnc nécessite des preuves expérimentales, souvent obtenues à partir d’études qui perturbent ces ARNnc et observent les phénotypes moléculaires qui en résultent. Cependant, la délimitation de la fonction des ARNnc est plus complexe en raison de leurs mécanismes complexes et de leur association avec les rétrotransposons. Les expériences de séquençage d’ARN à haut débit ont joué un rôle essentiel dans l’identification des gènes d’ARNnc, mais bon nombre de ces gènes affichent une faible abondance, ce qui conduit à des débats sur leur pertinence fonctionnelle par rapport à leur simple bruit de transcription.
Rôles des ARNnc et défis d’annotation
Les ARNnc remplissent diverses fonctions, notamment la régulation des gènes et la réparation de l’ADN. Cependant, leur portée totale n’est pas claire en raison du chevauchement limité des bases de données. L’annotation des ARNnc est difficile en raison des sources d’ensembles de données restreintes, des types d’ARN négligés et de leurs modèles d’expression complexes.
Des frontières floues : codage ou non-codage
Les frontières entre ARN codants et non codants deviennent de plus en plus floues. Alors que certains ont initialement identifié lncRNA pour coder de petits peptides, certains gènes codant pour des protéines produisent des isoformes de transcription non codantes avec une fonctionnalité démontrée. De plus, le séquençage de l’ARN à lecture longue révèle que de nombreux gènes voisins sont connectés par des événements de transcription à lecture continue, remettant en question les définitions traditionnelles des gènes.
Vers une annotation fonctionnelle des ARNnc
Alors que les gènes codant pour les protéines bénéficient de nombreuses preuves fonctionnelles et de méthodes informatiques prédictives, les ARNnc restent largement énigmatiques. Les objectifs actuels incluent la documentation des preuves soutenant la présence d’ARNnc, même si leur fonction reste incertaine.
Bien que de nombreux ARNnc aient été brièvement étudiés, des tests fonctionnels complets pour le nombre croissant d’ARNnc sont nécessaires. Malheureusement, la nomenclature de certains ARNnc, souvent basée sur des gènes adjacents codant pour des protéines, peut conduire à des malentendus sur leurs fonctions réelles.
Importance médicale de l’annotation des gènes
L’annotation des gènes est cruciale pour le diagnostic et le traitement des maladies génétiques, le catalogue en ligne Mendelian Inheritance in Man (OMIM48) documentant plus de 5 000 gènes associés à des troubles monogéniques. Par exemple, la base de données BRCA Exchange identifie à elle seule plus de 34 000 variantes du gène BRCA1, dont 2 228 sont étiquetées pathogènes. Des modèles précis de gènes et de transcriptions sont essentiels en milieu clinique pour évaluer la pathogénicité des variantes. Des erreurs d’annotation peuvent conduire à un diagnostic erroné, comme les exons manquants dans Cyclin-Dependent Kinase-Like 5 (CDKL5) qui ont abouti à un diagnostic faussement négatif.
Normes d’annotation clinique
Les laboratoires cliniques utilisent souvent les transcriptions RefSeq comme références pour signaler les variantes génétiques liées à la maladie, généralement sur la base de la littérature. Cette approche est incohérente et pourrait ne pas représenter au mieux les besoins en matière de diagnostic clinique. La collaboration MANE visait à résoudre ce problème en lançant une référence de transcription universelle pour chaque gène codant pour une protéine. Il existe néanmoins un besoin urgent d’inclure des annotations d’ARNnc et des éléments régulateurs cliniquement importants dans MANE. De plus, la normalisation des descriptions des variantes génétiques garantit une cartographie plus claire des génomes de référence.
Transition vers de nouvelles références génomiques
L’ancien génome hg19 (GRCh37) a été remplacé par GRCh38 en 2014. Ces versions diffèrent considérablement en termes de structure et de coordonnées des gènes. La séquence du génome humain T2T-CHM13 récemment introduite offre plus de stabilité dans les coordonnées des gènes. Une approche prometteuse consiste à créer un pan-génome qui représente toutes les populations humaines, améliorant ainsi la cohérence.
Innovations dans les technologies d’analyse génétique
Les technologies innovantes, notamment le séquençage à lecture longue (comme Oxford Nanopore Technologies (ONT) et Pacific Biosciences (PacBio), sont essentielles pour un catalogue complet de gènes, offrant des informations plus approfondies sur les expressions des isoformes malgré leur taux d’erreur. À mesure que ces technologies progressent, des isoformes de transcription précises la cartographie à résolution cellulaire devient réalisable. De plus, le séquençage de capture offre une couverture améliorée pour des ARN spécifiques, révolutionnant l’étude des transcrits faiblement exprimés, en particulier les ARNnc, améliorant ainsi notre compréhension de la régulation des gènes.