Les sociétés pharmaceutiques utilisent l’intelligence artificielle pour rationaliser le processus de découverte de nouveaux médicaments. Les modèles d’apprentissage automatique peuvent proposer de nouvelles molécules dotées de propriétés spécifiques qui pourraient combattre certaines maladies, en faisant en quelques minutes ce qui pourrait prendre des mois à l’homme pour le réaliser manuellement.
Mais il y a un obstacle majeur qui retient ces systèmes : les modèles suggèrent souvent de nouvelles structures moléculaires difficiles ou impossibles à produire en laboratoire. Si un chimiste ne peut pas réellement fabriquer la molécule, ses propriétés anti-maladie ne peuvent pas être testées.
Une nouvelle approche des chercheurs du MIT contraint un modèle d’apprentissage automatique afin qu’il ne suggère que des structures moléculaires qui peuvent être synthétisées. La méthode garantit que les molécules sont composées de matériaux qui peuvent être achetés et que les réactions chimiques qui se produisent entre ces matériaux suivent les lois de la chimie.
Par rapport à d’autres méthodes, leur modèle proposait des structures moléculaires qui obtenaient des scores aussi élevés et parfois meilleurs en utilisant des évaluations populaires, mais qui étaient garanties d’être synthétisables. Leur système prend également moins d’une seconde pour proposer une voie de synthèse, alors que d’autres méthodes qui proposent séparément des molécules puis évaluent leur synthétisabilité peuvent prendre plusieurs minutes. Dans un espace de recherche qui peut inclure des milliards de molécules potentielles, ces gains de temps s’additionnent.
Ce processus reformule la façon dont nous demandons à ces modèles de générer de nouvelles structures moléculaires. Beaucoup de ces modèles pensent à construire de nouvelles structures moléculaires atome par atome ou liaison par liaison. Au lieu de cela, nous construisons de nouvelles molécules bloc par bloc et réaction par réaction. »
Connor Coley, professeur adjoint en développement de carrière Henri Slezynger dans les départements de génie chimique et de génie électrique et informatique du MIT, et auteur principal de l’article
Rejoindre Coley sur le papier sont le premier auteur Wenhao Gao, un étudiant diplômé, et Rocío Mercado, un postdoc. La recherche est présentée cette semaine à la Conférence internationale sur les représentations de l’apprentissage.
Blocs de construction
Pour créer une structure moléculaire, le modèle simule le processus de synthèse d’une molécule pour s’assurer qu’elle peut être produite.
Le modèle reçoit un ensemble de blocs de construction viables, qui sont des produits chimiques qui peuvent être achetés, et une liste de réactions chimiques valides avec lesquelles travailler. Ces modèles de réaction chimique sont fabriqués à la main par des experts. Le contrôle de ces apports en n’autorisant que certains produits chimiques ou réactions spécifiques permet aux chercheurs de limiter l’espace de recherche d’une nouvelle molécule.
Le modèle utilise ces entrées pour construire un arbre en sélectionnant des blocs de construction et en les reliant par des réactions chimiques, une à la fois, pour construire la molécule finale. À chaque étape, la molécule devient plus complexe à mesure que des produits chimiques et des réactions supplémentaires sont ajoutés.
Il produit à la fois la structure moléculaire finale et l’arbre des produits chimiques et des réactions qui la synthétiseraient.
« Au lieu de concevoir directement la molécule du produit elle-même, nous concevons une séquence d’action pour obtenir cette molécule. Cela nous permet de garantir la qualité de la structure », explique Gao.
Pour former leur modèle, les chercheurs saisissent une structure moléculaire complète et un ensemble de blocs de construction et de réactions chimiques, et le modèle apprend à créer un arbre qui synthétise la molécule. Après avoir vu des centaines de milliers d’exemples, le modèle apprend à trouver lui-même ces voies synthétiques.
Optimisation des molécules
Le modèle formé peut être utilisé pour l’optimisation. Les chercheurs définissent certaines propriétés qu’ils souhaitent obtenir dans une molécule finale, compte tenu de certains blocs de construction et modèles de réaction chimique, et le modèle propose une structure moléculaire synthétisable.
« Ce qui était surprenant, c’est la grande fraction de molécules que vous pouvez réellement reproduire avec un si petit ensemble de modèles. Vous n’avez pas besoin d’autant de blocs de construction pour générer une grande quantité d’espace chimique disponible pour le modèle à rechercher », explique Mercado.
Ils ont testé le modèle en évaluant dans quelle mesure il pouvait reconstruire des molécules synthétisables. Il a été capable de reproduire 51 % de ces molécules et a mis moins d’une seconde à les recréer.
Leur technique est plus rapide que certaines autres méthodes car le modèle ne recherche pas toutes les options pour chaque étape de l’arborescence. Il a un ensemble défini de produits chimiques et de réactions avec lesquels travailler, explique Gao.
Lorsqu’ils ont utilisé leur modèle pour proposer des molécules aux propriétés spécifiques, leur méthode a suggéré des structures moléculaires de meilleure qualité qui avaient des affinités de liaison plus fortes que celles des autres méthodes. Cela signifie que les molécules seraient mieux à même de se fixer à une protéine et de bloquer une certaine activité, comme empêcher un virus de se répliquer.
Par exemple, en proposant une molécule qui pourrait s’arrimer au SRAS-Cov-2, leur modèle a suggéré plusieurs structures moléculaires qui pourraient être mieux à même de se lier aux protéines virales que les inhibiteurs existants. Comme les auteurs le reconnaissent, cependant, ce ne sont que des prédictions informatiques.
« Il y a tellement de maladies à combattre », dit Gao. « J’espère que notre méthode pourra accélérer ce processus afin que nous n’ayons pas à cribler des milliards de molécules à chaque fois pour une cible de maladie. Au lieu de cela, nous pouvons simplement spécifier les propriétés que nous voulons et cela peut accélérer le processus de recherche de ce candidat-médicament. «
Leur modèle pourrait également améliorer les pipelines de découverte de médicaments existants. Si une entreprise a identifié une molécule particulière qui a les propriétés souhaitées, mais qui ne peut pas être produite, elle pourrait utiliser ce modèle pour proposer des molécules synthétisables qui lui ressemblent étroitement, explique Mercado.
Maintenant qu’ils ont validé leur approche, l’équipe prévoit de continuer à améliorer les modèles de réaction chimique pour améliorer encore les performances du modèle. Avec des modèles supplémentaires, ils peuvent exécuter plus de tests sur certaines cibles de maladies et, éventuellement, appliquer le modèle au processus de découverte de médicaments.
Cette recherche a été soutenue, en partie, par l’Office of Naval Research des États-Unis et le Machine Learning for Pharmaceutical Discovery and Synthesis Consortium.