Dans une prépublication récente* téléchargée sur le serveur bioRxiv, les chercheurs ont développé et formé un modèle fondamental pour prédire l’expression, l’épissage, la spécificité des protéines de liaison à l’ARN et les sites de microARN à partir de séquences d’ADN génomique. Leur modèle, appelé « BigRNA », pourrait identifier et prédire les variantes pathogènes de l’ADN non codant dans un large spectre de cas mécanistes. Notamment, BigRNA a pu prédire avec précision les effets des oligonucléotides stériques bloquants (SBO), des acides nucléiques capables de moduler l’expression des gènes. Leurs résultats suggèrent que BigRNA et des modèles fondamentaux similaires pourraient permettre des thérapies personnalisées à base d’ARN à l’avenir.
Étude : Un modèle de fondation d’ARN permet la découverte de mécanismes pathologiques et de traitements candidats. Crédit d’image : Joyisjoyful/Shutterstock
*Avis important: bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.
Sommaire
Modélisation de l’ARN et avantages du deep learning
Les recherches visant à concevoir des algorithmes d’apprentissage automatique (ML) capables de prédire les résultats de l’ARN à partir de séquences d’ADN sont nombreuses et anciennes, mais elles doivent encore faire leurs preuves. Les progrès récents en matière d’apprentissage profond (DL) ont permis des progrès significatifs dans la recherche actuelle dans le domaine des prédictions de l’ARN et présentent des approches informatiques qui auraient été impossibles il y a à peine dix ans.
Malheureusement, la plupart des recherches actuelles dans le domaine se concentrent sur les prédictions de l’expression absolue ou globale de l’ARN, les recherches sur les mécanismes de régulation qui sous-tendent l’expression de l’ARN faisant défaut. Étant donné que les interventions régulatrices telles que l’épissage et la polyadénylation sont bien plus critiques pour les interventions thérapeutiques cliniques, les études sur les perturbations transcriptionnelles spécifiques régissant l’expression de l’ARN sont cruciales pour toute future application médicale dans ce domaine.
Les progrès des techniques de séquençage de nouvelle génération ont rendu les données de séquençage d’ARN (RNA-seq) largement disponibles. La grande quantité de données de séquençage d’ARN en circulation constitue la ressource idéale pour les analyses à haute résolution de l’expression de l’ARN, tout en permettant également la formation de modèles d’apprentissage profond capables d’identifier et de prédire des événements de régulation transcriptionnels complexes à partir d’une grande variété de génotypes d’ADN distincts. Les ensembles de données hybrides, y compris le projet Genotype-Tissue Expression (GTEx), sont particulièrement utiles car ils combinent à la fois le séquençage d’ARN haute résolution et le séquençage du génome entier (WGS), permettant une comparaison directe de l’ADN à l’ARN.
À propos de l’étude
La présente étude a utilisé de nombreuses données WGS et RNA-seq pour concevoir et entraîner un modèle d’apprentissage profond nommé « BigRNA » visant à prédire l’expression de l’ARN et les interactions mécanistiques qui aboutissent aux niveaux d’expression d’ARN observés. Les chercheurs ont commencé par compiler les données du consortium GTEx comprenant à la fois des informations WGS et RNA-seq provenant de 70 individus présentant des héréditaires divers. Les données de séquence ont été alignées et transmises via un pipeline de fenêtre de 128 pb puisque l’architecture du modèle basée sur le transformateur a été optimisée pour les lectures de 128 pb (paire de bases).
« Chaque échantillon d’ARN-seq a été traité en deux pistes de données : couverture et jonction, où la piste de jonction contient un sous-ensemble de comptes de lecture aux jonctions d’épissage. »
Le pipeline de fenêtre de 128 pb a ensuite été optimisé, en tenant compte des deux pistes de données d’ARN : les données de couverture ont été traitées à l’aide d’un pooling moyen de fenêtre de 128 pb, tandis que les données de jonction ont été traitées à l’aide d’un pooling de somme de fenêtre de 128 pb. Les données sur l’ARN ont été alignées sur les données génomiques correspondantes, avec une attention particulière portée aux insertions et à la suppression spécifiques à chaque individu.
BigRNA a ensuite été formé séparément sur les 70 paires ADN-ARN, permettant un apprentissage indépendant de chacun des individus échantillonnés après avoir pris en compte les différences phénotypiques résultant des haplotypes. Les chercheurs ont ajouté des sorties par tissu indépendantes de l’individu aux régiments d’entraînement de BigRNA, encourageant le modèle à commencer à prédire le génotype, ce qui aboutit aux données de séquençage d’ARN observées.
Après la formation du modèle, BigRNA a été affiné sur les ensembles de données sur la protéine de liaison à l’ARN (RBP) et les microARN obtenus à partir d’essais de réticulation et d’immunoprécipitation améliorés (eCLIP) et de la base de données de l’Encyclopédie des éléments d’ADN (ENCODE). Pour les tests de performances du modèle, des gènes codant pour des protéines complètement distincts de ceux utilisés pour la formation ont été sélectionnés. Afin de valider les performances et la précision de BigRNA, la différence entre les prédictions du modèle et les résultats expérimentaux précédents a été calculée pour chaque tissu. Les performances de prédiction différentielle de l’expression génique ont été vérifiées à l’aide de comparaisons par paires entre les prédictions et les observations et calculées à l’aide du journal2 métrique de changement de pli (coefficient de corrélation entre les données de couverture prévues et cibles par gène pour tous les gènes).
Résultats de l’étude
BigRNA était capable de prédire à la fois l’expression de l’ARN spécifique à un tissu et les sites potentiels de liaison aux protéines et aux microARN avec une grande précision. Notamment, pour les gènes inconnus non inclus dans les ensembles de données de formation ou de validation, des coefficients de corrélation (r) d’environ 0,70 ont été obtenus (plage de 0,47 à 0,77). La précision était encore plus remarquable lorsqu’elle se concentrait sur l’expression de l’ARN dans le cerveau, à environ 74 %. BigRNA a notamment surpassé l’étalon-or actuel en matière de modèles de prédiction d’ARN, « DeepRiPe », pour les 142 ensembles de données testés. Lorsqu’il s’est concentré sur les prédictions de microARN, BigRNA a montré une précision de 84 %. C’est prometteur, compte tenu des applications des microARN dans la découverte de médicaments.
« Un défi majeur en génétique humaine est de prédire l’impact des variantes de séquence qui peuvent être trouvées au sein de la population humaine. De nombreux modèles d’apprentissage profond qui fonctionnent bien sur des gènes invisibles en utilisant certaines mesures, comme AlphaFold, ont du mal à prédire les effets des variantes. Alors que certains des méthodes précises existent pour prédire l’impact pathogène de variantes faux-sens rares, les variantes non codantes, telles que celles situées dans les régions non traduites 3′ et 5′ (UTR) des gènes, restent difficiles à interpréter.
BigRNA atténue ces préoccupations : lorsqu’il a été testé à l’aide d’un échantillon de données de ClinVar (un ensemble de données sur les maladies génétiques non transmissibles), BigRNA a pu prédire l’issue de la maladie à partir des données d’entrée RNA-seq avec un score d’aire sous la courbe ROC (AUC) de 0,95. Le taux moyen de faux positifs (FPR) du modèle était systématiquement <0,5%, ce qui suggère que BigRNA et d'autres modèles fondamentaux pourraient aider les cliniciens à diagnostiquer les maladies héréditaires et génétiques à l'avenir.
La plupart des modèles conventionnels ne peuvent pas identifier les variants pathogénétiques d’épissage, et les rares qui ne parviennent toujours pas à faire la distinction entre les mutations bénignes et les variants pathogénétiques. BigRNA a été évalué sur sa capacité à prédire et à signaler les impacts d’épissage du saut d’exon à l’aide des données d’un test d’épissage massivement parallèle (MaPSy). Le modèle a montré des performances impressionnantes, avec des scores AUC de 0,89. Pour évaluer les impacts de l’épissage sur les variantes introniques et les performances du BigRNA, les données du gène ABCA4 ont été utilisées. Une fois de plus, BigRNA s’est avéré identifier et signaler avec précision l’événement d’épissage, avec une AUC de 0,9.
« La capacité de BigRNA à comprendre les mécanismes de régulation affectant l’épissage et l’expression des gènes peut lui permettre de concevoir des interventions thérapeutiques qui sauvent les effets des variantes pathogènes. »
Conclusions
Dans la présente prépublication, les chercheurs ont développé un nouveau modèle d’apprentissage automatique profond appelé BigRNA pour identifier et prédire les défauts de séquence d’ARN à partir d’ensembles de données d’ADN génomique. Leurs résultats suggèrent que BigRNA présente le modèle le meilleur et le plus précis à ce jour pour identifier les aberrations de séquençage d’ARN, y compris l’épissage, à partir d’ensembles de données ADN. Il a en outre été démontré que BigRNA est capable de prédire les expressions génétiques spécifiques à un tissu et d’identifier le mécanisme sous-jacent entraînant des niveaux d’expression différentiels selon les génotypes.
En tant qu’algorithme d’apprentissage automatique, la précision de BigRNA a le potentiel de s’améliorer encore davantage avec des données WGS et RNA-seq supplémentaires. Des modèles fondamentaux, notamment BigRNA, pourraient ouvrir la voie à des thérapies personnalisées à base d’ARN à l’avenir.
« Nos résultats montrent que différentes tâches de découverte de médicaments peuvent être facilitées par l’apprentissage profond. Nous pensons que BigRNA et les systèmes d’apprentissage profond comme celui-ci ont le potentiel de transformer le domaine de la thérapie à base d’ARN. »
*Avis important: bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/le comportement lié à la santé, ni être traités comme des informations établies.