Les chercheurs du MDC ont développé un nouvel outil qui permet de maximiser plus facilement la puissance de l'apprentissage en profondeur pour étudier la génomique. Ils décrivent la nouvelle approche, Janggu, dans le journal Communications Nature.
Imaginez qu'avant de pouvoir préparer le dîner, vous deviez d'abord reconstruire la cuisine, spécialement conçue pour chaque recette. Vous passeriez bien plus de temps à préparer qu'à cuisiner.
Pour les biologistes computationnels, il s'agit d'un processus long et similaire d'analyse des données génomiques. Avant même de pouvoir commencer leur analyse, ils passent beaucoup de temps à formater et à préparer d'énormes ensembles de données à intégrer dans les modèles d'apprentissage en profondeur.
Pour rationaliser ce processus, des chercheurs du Centre Max Delbrueck de médecine moléculaire de l'Association Helmholtz (MDC) ont développé un outil de programmation universel qui convertit une grande variété de données génomiques dans le format requis pour l'analyse par des modèles d'apprentissage profond.
« Avant, vous finissiez par perdre beaucoup de temps sur l'aspect technique, plutôt que de vous concentrer sur la question biologique à laquelle vous tentiez de répondre », explique le Dr Wolfgang Kopp, un scientifique du groupe de recherche Bioinformatique et Omique Data Science au MDC de Berlin. Institut de biologie des systèmes médicaux (BIMSB) et premier auteur de l'article.
« Avec Janggu, nous visons à alléger une partie de ce fardeau technique et à le rendre accessible au plus grand nombre. »
Nom unique, solution universelle
Janggu tire son nom d'un tambour coréen traditionnel en forme de sablier tourné sur le côté.
Les deux grandes sections du sablier représentent les domaines sur lesquels Janggu se concentre: le prétraitement des données génomiques, la visualisation des résultats et l'évaluation du modèle.
Le connecteur étroit au milieu représente un espace réservé pour tout type de modèle d'apprentissage en profondeur que les chercheurs souhaitent utiliser.
Les modèles d'apprentissage en profondeur impliquent des algorithmes triant des quantités massives de données et trouvant des caractéristiques ou des modèles pertinents.
Bien que l'apprentissage en profondeur soit un outil très puissant, son utilisation en génomique a été limitée. La plupart des modèles publiés ont tendance à fonctionner uniquement avec des types de données fixes, capables de répondre à une seule question spécifique.
L'échange ou l'ajout de nouvelles données nécessite souvent de tout recommencer à zéro et d'importants efforts de programmation.
Janggu convertit différents types de données génomiques en un format universel qui peut être connecté à n'importe quel modèle d'apprentissage automatique ou d'apprentissage en profondeur qui utilise python, un langage de programmation largement utilisé.
Ce qui rend notre approche spéciale, c'est que vous pouvez facilement utiliser n'importe quel ensemble de données génomiques pour votre problème d'apprentissage en profondeur, tout se passe dans n'importe quel format. «
Altuna Akalin, chef du groupe de recherche en science des données bioinformatique et omique, Centre Max Delbrück de médecine moléculaire de l'Association Helmholtz
La séparation est la clé
Le groupe de recherche d'Akalin a une double mission: développer de nouveaux outils d'apprentissage automatique et les utiliser pour étudier des questions en biologie et en médecine.
Au cours de leurs propres efforts de recherche, ils étaient continuellement frustrés par le temps passé à mettre en forme les données.
Ils ont réalisé qu'une partie du problème était que chaque modèle d'apprentissage en profondeur comprenait son propre prétraitement des données.
En séparant l'extraction et la mise en forme des données de l'analyse, il offre un moyen beaucoup plus facile d'échanger, de combiner ou de réutiliser des sections de données. C'est un peu comme avoir tous les ustensiles de cuisine et les ingrédients à portée de main pour essayer une nouvelle recette.
« La difficulté était de trouver le bon équilibre entre flexibilité et convivialité », explique Kopp.
« S'il est trop flexible, les gens seront noyés dans différentes options et il sera difficile de commencer. »
Kopp a préparé plusieurs didacticiels pour aider les autres à commencer à utiliser Janggu, ainsi que des exemples de jeux de données et des études de cas.
le Communications Nature L'article démontre la polyvalence de Janggu dans la gestion de très grands volumes de données, la combinaison de flux de données et la réponse à différents types de questions, telles que la prédiction des sites de liaison à partir de séquences d'ADN et / ou l'accessibilité de la chromatine, ainsi que pour les tâches de classification et de régression.
Des applications infinies
Alors que la plupart des avantages de Janggu sont sur le front, les chercheurs voulaient fournir une solution complète pour l'apprentissage en profondeur.
Janggu inclut également la visualisation des résultats après l'analyse en profondeur et évalue ce que le modèle a appris.
Notamment, l'équipe a incorporé un « codage de séquence d'ordre supérieur » dans le package, ce qui permet de capturer les corrélations entre les nucléotides voisins.
Cela a permis d'augmenter la précision de certaines analyses. En rendant l'apprentissage en profondeur plus facile et plus convivial, Janggu aide à ouvrir la porte à répondre à toutes sortes de questions biologiques.
« L'une des applications les plus intéressantes consiste à prédire l'effet des mutations sur la régulation des gènes », explique Akalin.
« C'est passionnant parce que maintenant nous pouvons commencer à comprendre les génomes individuels, par exemple, nous pouvons identifier les variantes génétiques qui provoquent des changements de régulation, ou nous pouvons interpréter les mutations de régulation se produisant dans les tumeurs. »
La source:
Centre Max Delbrück de médecine moléculaire de l'Association Helmholtz
Référence de la revue:
Kopp, W., et al. (2020) Deep learning for genomics using Janggu. Communications Nature. doi.org/10.1038/s41467-020-17155-y.