Le profilage protéique et génétique à grande échelle a considérablement élargi le paysage des protéines et des mutations génétiques associées au cancer, mais il a été difficile de déterminer si elles jouent un rôle actif dans la maladie ou si elles sont des spectateurs innocents. Dans une étude publiée dans Cancer natureldes chercheurs du Baylor College of Medicine ont révélé une approche puissante et impartiale basée sur l'apprentissage automatique appelée FunMap pour évaluer le rôle des mutations associées au cancer et des protéines sous-étudiées, avec de larges implications pour faire progresser la biologie du cancer et éclairer les stratégies thérapeutiques.
« Obtenir des informations fonctionnelles sur les gènes et les protéines associés au cancer est une étape importante vers une meilleure compréhension de la maladie et l'identification de cibles thérapeutiques potentielles », a déclaré l'auteur correspondant, le Dr Bing Zhang, professeur de génétique moléculaire et humaine et membre de l'étude Lester et Sue Smith. Centre du sein à Baylor.
« Notre approche pour obtenir des informations fonctionnelles sur ces gènes et protéines impliquait l'utilisation de l'apprentissage automatique pour développer un réseau cartographiant leurs relations fonctionnelles », a déclaré Zhang, membre du Dan L Duncan Comprehensive Cancer Center de Baylor et boursier McNair. « C'est comme si je ne savais peut-être rien de vous, mais si je connais vos connexions LinkedIn, je peux en déduire ce que vous faites. »
L’équipe a développé FunMap, un réseau fonctionnel de 10 525 gènes construits à l’aide d’une méthode d’apprentissage automatique supervisée qui intègre des ensembles de données protéiques et des données de séquençage d’ARN de 11 types de cancer récemment harmonisés par le groupe de travail pan-cancer du Clinical Proteomic Tumor Analysis Consortium (CPTAC).
« Avec FunMap, nous avons trouvé 196 800 associations parmi 10 525 protéines – une couverture protéomique complète et impartiale et un niveau élevé de pertinence fonctionnelle », a déclaré Zhang. « Deux différences clés entre notre approche et les études précédentes sur les réseaux de co-expression génique sont, premièrement, l'intégration des données sur les protéines cancéreuses avec les données d'expression de l'ARNm et, deuxièmement, l'application de l'apprentissage automatique supervisé pour mettre en synergie tous les ensembles de données afin de maximiser le pouvoir prédictif. L'approche a surpassé les réseaux d'interaction protéine-protéine pour distinguer les paires de gènes fonctionnellement pertinentes et non pertinentes.
Grâce à l'analyse de réseau, FunMap découvre des modules protéiques et une organisation modulaire hiérarchique liée aux caractéristiques du cancer et aux caractéristiques cliniques, prédit les fonctions des protéines cancéreuses peu étudiées, offre des informations plus approfondies sur les facteurs de cancer établis et identifie les facteurs à faible fréquence de mutation.
Plus de 200 gènes sont fortement surexprimés ou sous-exprimés dans le cancer, mais nous savons très peu de choses sur leurs rôles spécifiques dans la maladie. Lorsque nous avons cartographié ces gènes dans notre réseau, nous avons pu observer le voisinage et faire une prédiction sur leur fonction. »
M. Bing Zhang, professeur de génétique moléculaire et humaine, Baylor College of Medicine
Par exemple, l’expression du gène peu étudié MAB21L4 est nettement inférieur à la normale dans trois types de tumeurs cancéreuses. FunMap a montré que le voisinage du réseau de ce gène est enrichi en gènes associés à la différenciation des cellules épithéliales, dont la suppression joue un rôle essentiel dans la progression tumorale. Les données cliniques sur le classement des tumeurs, ainsi qu'une étude récente montrant que la perte de MAB21L4 bloque la différenciation pour favoriser le développement du carcinome épidermoïde, fournit des preuves solides pour soutenir le rôle suppresseur de tumeur de MAB21L4.
De plus, l’utilisation de méthodes d’apprentissage profond de pointe avec FunMap a permis de découvrir de nombreux facteurs de cancer jusqu’alors méconnus et présentant de faibles fréquences de mutation, notamment un nouveau rôle suppresseur de tumeur pour LGI3étayé par des données expérimentales d'inactivation du gène.
Cette étude met en valeur le grand potentiel de l’intégration de l’apprentissage automatique et du profilage protéogénomique pour mieux comprendre les systèmes cancéreux complexes. En générant un réseau fonctionnel complet, cette approche fournit un cadre solide pour la recherche en génomique fonctionnelle du cancer, offrant des informations précieuses sur les mutations et les protéines associées au cancer.
« Ces résultats peuvent grandement aider à prioriser les cibles pour la traduction clinique, contribuant ainsi au développement de thérapies contre le cancer plus efficaces », a déclaré Zhang.
Le package FunMap Python est entièrement open source et disponible en téléchargement à partir de l'index du package Python (https://pypi.org/project/funmap).
Les co-premiers auteurs, Zhiao Shi et Jonathan T. Lei, ainsi que John M. Elizarraras, ont également contribué à ce travail. Tous sont affiliés au Baylor College of Medicine.
Les auteurs reconnaissent les contributions du CPTAC et de son groupe de travail sur l’analyse pan-cancer. Ce travail a été soutenu par des subventions des National Institutes of Health du National Cancer Institute (U24 CA210954, U24 CA271076, R01 CA245903 et U01 CA271247), par le Cancer Prevention and Research Institute of Texas (CPRIT) (prix RR160027), une bourse CPRIT et une bourse d'études sur le cancer du McNair Medical Institute de la Fondation Robert et Janice McNair.