Les enzymes sont les usines à molécules des cellules biologiques. Cependant, les blocs de construction moléculaires de base qu’ils utilisent pour assembler les molécules cibles sont souvent inconnus et difficiles à mesurer. Une équipe internationale comprenant des bioinformaticiens de l’Université Heinrich Heine de Düsseldorf (HHU) a maintenant franchi une étape importante à cet égard : leur méthode d’IA prédit avec une grande précision si une enzyme peut fonctionner avec un substrat spécifique. Ils présentent maintenant leurs résultats dans la revue scientifique Communication Nature.
Les enzymes sont des biocatalyseurs importants dans toutes les cellules vivantes : elles facilitent les réactions chimiques, par lesquelles toutes les molécules importantes pour l’organisme sont produites à partir de substances de base (substrats). La plupart des organismes possèdent des milliers d’enzymes différentes, chacune responsable d’une réaction très spécifique. La fonction collective de toutes les enzymes constitue le métabolisme et fournit ainsi les conditions de vie et de survie de l’organisme.
Même si les gènes qui codent pour les enzymes peuvent facilement être identifiés comme tels, la fonction exacte de l’enzyme résultante est inconnue dans la grande majorité – plus de 99% – des cas. En effet, la caractérisation expérimentale de leur fonction – c’est-à-dire quelles molécules de départ une enzyme spécifique convertit en quelles molécules finales concrètes – prend énormément de temps.
En collaboration avec des collègues suédois et indiens, l’équipe de recherche dirigée par le professeur Dr Martin Lercher du groupe de recherche Computational Cell Biology du HHU a développé une méthode basée sur l’IA pour prédire si une enzyme peut utiliser une molécule spécifique comme substrat pour la réaction. catalyse.
La particularité de notre modèle ESP (« Enzyme Substrate Prediction ») est que nous ne sommes pas limités à des enzymes individuelles, spéciales et à d’autres qui leur sont étroitement liées, comme c’était le cas avec les modèles précédents. Notre modèle général peut fonctionner avec n’importe quelle combinaison d’une enzyme et de plus de 1 000 substrats différents. »
Professeur Dr Martin Lercher du groupe de recherche Computational Cell Biology au HHU
Le doctorant Alexander Kroll, auteur principal de l’étude, a développé un modèle dit d’apprentissage en profondeur dans lequel les informations sur les enzymes et les substrats étaient codées dans des structures mathématiques appelées vecteurs numériques. Les vecteurs d’environ 18 000 paires enzyme-substrat validées expérimentalement – où l’enzyme et le substrat sont connus pour fonctionner ensemble – ont été utilisés comme données d’entrée pour former le modèle d’apprentissage en profondeur.
Alexander Kroll : « Après avoir formé le modèle de cette manière, nous l’avons ensuite appliqué à un ensemble de données de test indépendant où nous connaissions déjà les bonnes réponses. Dans 91 % des cas, le modèle a correctement prédit quels substrats correspondent à quelles enzymes. »
Cette méthode offre un large éventail d’applications potentielles. Tant dans la recherche sur les médicaments que dans la biotechnologie, il est très important de savoir quelles substances peuvent être converties par des enzymes. Professeur Lercher : « Cela permettra à la recherche et à l’industrie de réduire un grand nombre de couples possibles aux plus prometteurs, qu’ils pourront ensuite utiliser pour la production enzymatique de nouveaux médicaments, produits chimiques ou même biocarburants. »
Kroll ajoute : « Cela permettra également la création de modèles améliorés pour simuler le métabolisme des cellules. De plus, cela nous aidera à comprendre la physiologie de divers organismes – des bactéries aux humains. »
Aux côtés de Kroll et Lercher, le professeur Dr Martin Engqvist de l’Université de technologie Chalmers de Göteborg, en Suède, et Sahasra Ranjan de l’Institut indien de technologie de Mumbai ont également participé à l’étude. Engqvist a aidé à concevoir l’étude, tandis que Ranjan a mis en œuvre le modèle qui code les informations enzymatiques introduites dans le modèle global développé par Kroll.