Les scientifiques de l'Institut d'immunologie de La Jolla (LJI) ont développé une nouvelle méthode informatique permettant de relier les marques moléculaires de notre ADN à l'activité des gènes. Leurs travaux pourraient aider les chercheurs à connecter les gènes aux « commutateurs » moléculaires qui les activent ou les désactivent.
Cette recherche, publiée dans Biologie du génomeconstitue une étape importante vers l’exploitation des approches d’apprentissage automatique afin de mieux comprendre les liens entre l’expression des gènes et le développement de la maladie.
« Cette recherche vise à apporter une perspective tridimensionnelle à l'étude des modifications de l'ADN et de leur fonction dans notre génome », déclare Ferhat Ay, Ph.D., professeur agrégé du LJI, qui a codirigé l'étude avec le professeur Anjana Rao, Ph.D. du LJI. .
Ay et Rao travaillent à identifier les régions du génome qui contiennent des amplificateurs moléculaires, ou « commutateurs », qui ajustent les niveaux d'expression des gènes et déterminent quand et où les gènes seront activés ou désactivés. Ce travail nécessite que les chercheurs développent des outils informatiques capables d’exploiter des données génomiques complexes et de découvrir quels amplificateurs sont connectés à quels gènes.
Pour la nouvelle étude, les chercheurs du LJI ont utilisé des outils d'apprentissage automatique appelés réseaux neuronaux linéaires et graphiques pour traiter les données génomiques et établir ces connexions. Les réseaux de neurones sont des outils informatiques calqués sur la manière dont les neurones du cerveau traitent les informations et identifient des modèles. Les réseaux de neurones graphiques sont capables d'intégrer des informations 3D, telles que les interactions physiques de l'ADN à l'intérieur de la cellule.
Edahí González-Avalos, Ph.D., a dirigé le développement de ce réseau neuronal graphique en tant qu'étudiant diplômé de l'UC San Diego, encadré conjointement par Rao et Ay au LJI. « Nous pouvons utiliser cela pour prioriser les interactions de l'ADN au sein du génome », explique González-Avalos, qui travaille maintenant chez Guardant Health.
Le réseau neuronal se met au travail
Les chercheurs ont formé de nouveaux réseaux neuronaux qui apprennent comment la présence d'une modification importante de l'ADN appelée 5hmC, à proximité ou à distance du gène, est liée à l'activité d'expression du gène. Cette fixation d'un groupe hydroxyméthyle à la cytosine a été associée à une activité activatrice.
En fait, 5hmC semble avoir une influence si importante sur l’expression des gènes que les scientifiques l’ont appelé la « sixième lettre » de l’alphabet de l’ADN aux côtés de A, T, C, G et d’une forme méthylée intermédiaire appelée 5mC (la cinquième base). La conversion de 5mC en 5hmC sur la cytosine est associée à une activité activatrice : plus il y a de 5hmC, plus le niveau d'activité activatrice est élevé.
Dans des études précédentes, les chercheurs du Rao Lab avaient découvert que l'emplacement de 5hmC dans le génome changeait en fonction des types de cellules qu'ils examinaient et des gènes exprimés par ces types de cellules. Le code ADN réel serait le même, mais 5hmC serait attaché au génome à différents endroits dans une cellule hépatique par rapport à une cellule pulmonaire ou cérébrale.
Cette distribution 5hmC contrôlait l’expression de différents ensembles de gènes dans ces différents types de cellules. Les chercheurs avaient découvert que 5hmC s'attache aux régions des génomes qui fonctionnent comme des amplificateurs ; les mêmes régions qui aident à activer et désactiver l'expression des gènes ; ainsi qu'aux gènes eux-mêmes. Ces différences dans les gènes actifs et les activateurs sont ce qui distingue une cellule hépatique des cellules des poumons ou des neurones du cerveau.
« La distribution de 5hmC diffère d'un type de cellule à l'autre », explique Rao. « Si vous pouvez savoir où se trouve 5hmC, vous pouvez déduire quel type de cellule produit l'ADN que vous étudiez. »
Par exemple, si une cellule est cancéreuse, vous pouvez déduire de quel type de cancer il s’agit, même si elle a métastasé (s’est éloignée de) son site d’origine dans le corps.
La nouvelle méthode de recherche permet d’établir un lien plus simple entre les gènes et les amplificateurs que ce qui était possible avec les méthodes précédentes.
« Cet article était une preuve de concept montrant que nous pouvions utiliser ces réseaux neuronaux graphiques pour prédire les interactions entre les gènes et les amplificateurs à l'aide de 5hmC », explique González-Avalos.
Ay dit qu'il était heureux de voir comment le réseau neuronal a révélé des connexions entre les gènes et 5hmC dans des régions lointaines du génome. Ces connexions à longue distance à travers le génome ont permis de donner la priorité aux régions capables d’améliorer l’expression des gènes.
« Ce qui est passionnant, c'est que certains de ces amplificateurs distants sont de nouveaux éléments régulateurs qui n'ont jamais été découverts auparavant », explique Ay.
À l’avenir, les chercheurs espèrent examiner de plus près la distribution de 5hmC afin de mieux comprendre les interactions entre les activateurs et les gènes dans les cellules humaines. « Cette recherche a été réalisée avec des données provenant de cellules de souris », explique Ay. « Ensuite, nous voudrions examiner 5hmC et ces interactions dans les cellules immunitaires et les cellules cancéreuses des patients. »
Espoir d’un meilleur diagnostic du cancer
Tout comme dans les cellules normales, la distribution des 5hmC diffère selon les types de cellules cancéreuses. Cela signifie que la nouvelle méthode LJI pourrait s’avérer utile pour comprendre les mécanismes génétiques à l’origine du développement du cancer.
Rao affirme que la nouvelle méthode pourrait également ouvrir la porte à des diagnostics de cancer plus rapides et plus précis.
Actuellement, il est très difficile pour les scientifiques d’analyser des échantillons de sang à la recherche de signes de tumeurs solides dans le corps.
Les cellules tumorales solides ne sont généralement pas disponibles dans le sang. Ce qui est disponible, c’est l’ADN, et c’est généralement de l’ADN partiellement dégradé. »
Professeur Anjana Rao, Ph.D., Institut d'immunologie de La Jolla
Comme l'explique Rao, les médecins pourraient aider davantage de patients – et potentiellement détecter les cancers plus tôt – s'ils pouvaient regarder au-delà de l'ADN lui-même et analyser la distribution de 5hmC à la place.
Il reste encore du travail à faire avant que les scientifiques disposent des outils nécessaires à ce type de détection du cancer, mais Ay affirme que les nouveaux travaux montrent la puissance de la combinaison de données expérimentales avec de nouvelles méthodes informatiques. « Cela suggère qu'en appliquant notre nouvelle méthode, nous pouvons identifier de nouveaux amplificateurs distants non annotés », explique Ay.