Dans une étude récente publiée dans Communications naturellesles chercheurs ont développé un mécanisme de notation basé sur l’intelligence artificielle pour les premières campagnes de découverte de médicaments qui pourrait être utilisé pour la priorisation des composés, la rationalisation des motifs et la conception biaisée de médicaments.
Dans les campagnes de développement de médicaments, l’optimisation des leads implique un processus fastidieux de travail entre plusieurs chimistes pour atteindre les profils de propriétés moléculaires ciblés. Les chimistes acquièrent de l’expérience dans des domaines tels que la priorisation des composés, ce qui leur permet de prendre des décisions plus efficaces. Les chercheurs ont exploré des techniques basées sur des règles et des classements d’opportunités chimioinformatiques fondamentales, mais il s’est avéré difficile d’en saisir les complexités. La chimie médicinale, comme une entreprise humaine, est sensible aux préjugés subjectifs.
À propos de l’étude
Dans la présente étude, les chercheurs ont étudié la faisabilité de transformer les connaissances des chimistes médicinaux en modèles d’apprentissage automatique pour l’optimisation des pistes et d’autres choix de pipelines de découverte de médicaments.
En étudiant les appariements chimiques, les chercheurs ont créé un modèle d’apprentissage automatique capable d’apprendre des préférences de 35 chimistes médicinaux. Le modèle utilisait un modèle expérimental d’apprentissage pour classer les molécules, les participants recevant un signal simple pour sélectionner leurs composés préférés.
L’étude a comporté de nombreux cycles, dont deux cycles d’analyse préliminaire avec 220 paires moléculaires et un cycle de production avec près de 5 000 réponses. L’accord entre évaluateurs (c’est-à-dire le degré selon lequel les sélections d’un chimiste concordent avec celles de ses pairs) a été testé à l’aide de 200 paires chimiques distinctes, ce qui était intuitivement une indication simple de la capacité d’un modèle basé sur l’intelligence artificielle à apprendre un signal.
En outre, les chercheurs ont étudié les biais de sélection moléculaire basés sur les positions moléculaires sur l’écran (à droite ou à gauche) lors de l’annotation. Le modèle a été formé sur une collection de composés extraits de la base de données ChEMBL, avec des poids moléculaires et une similarité avec un médicament (QED) compris entre 200 et 1 000 g mol-1, et il a permis jusqu’à deux violations de la règle des cinq.
Les composés ont été standardisés en éliminant le sel, en normalisant les tautomères et en neutralisant les atomes avant d’être utilisés dans un problème d’apprentissage des préférences. Pour le cycle de recherche préliminaire ultérieur et les cycles de fabrication suivants, les filtres de sous-structure des Instituts Novartis pour la recherche biomédicale (NIBR) ont été utilisés, ce qui a permis d’obtenir un pool de 1 831 052 molécules. L’analyse de fragments sur divers produits chimiques a rationalisé l’apprentissage des modèles.
Après chaque lot étiqueté de 1 000 points de données, les performances de prédiction du modèle ont été évaluées à l’aide des valeurs de la courbe AUROC (aire sous la caractéristique de fonctionnement du récepteur) et d’une quintuple validation croisée randomisée.
Une stratégie similaire à celle publiée dans l’étude originale QED a été utilisée pour évaluer si les scores appris pouvaient être utilisés pour déprioriser les substances indésirables. Les chercheurs ont généré 500 molécules en maximisant et en diminuant la fonction de notation apprise à l’aide du modèle génératif LSTM (Long Short-Term Memory) pré-entraîné basé sur SMILES et de l’approche d’optimisation de l’escalade. Cette technique vise à surmonter les contraintes de biais cognitifs des recherches antérieures et à accroître l’efficacité des modèles d’apprentissage automatique dans le secteur pharmaceutique.
Résultats
Les données ont révélé une concordance modérée entre les choix des chimistes donnés lors des premiers tours. Les résultats de la validation croisée ont révélé une augmentation constante des performances de classification précise des paires avec une disponibilité croissante des données, avec des valeurs AUROC comprises entre 0,6 et 0,74 aux seuils de 1 000 et 5 000 paires disponibles, respectivement.
L’étude a utilisé des systèmes de notation implicites pour élaborer une nouvelle stratégie permettant de prédire la ressemblance des médicaments dans leur conception. La technique était plus précise que la mesure QED couramment utilisée, créée à partir de commentaires internes au fil des années d’expérience.
L’algorithme pourrait connaître avec précision les préférences des chimistes médicinaux, en distinguant des caractéristiques telles que la ressemblance avec un médicament, la densité des empreintes digitales et la proportion de sites d’oxydation allyliques. QED était le descripteur le plus associé, suivi de la densité des empreintes digitales, des régions d’oxydation allylique, des contributions atomiques à la surface de van der Waals et des valeurs kappa de Hall-Kier.
Avec différents types de densités d’empreintes digitales disponibles, le modèle a pu détecter des composés plus élevés en termes de caractéristiques, indiquant que les chimistes favorisaient les molécules plus élevées en termes de caractéristiques.
Cependant, il y avait une association positive mineure avec la mesure du score, indiquant que le score suggéré préférait les molécules synthétiquement plus simples. Le descripteur SMR VSA3 mesurait la surface moléculaire agrégée à l’aide des valeurs MR de Wildman-Crippen et était légèrement corrélé négativement, montrant que les chimistes favorisaient les composés contenant des atomes neutres d’azote.
Pour les produits pharmaceutiques approuvés par la FDA et les collections GDB, la méthode de filtrage a donné respectivement 732 et 8 616 composés examinés. Par rapport à l’ensemble GDB, la distribution des scores appris était bien répartie entre les ensembles qui représentaient mieux l’espace de type drogue. [i.e., Drugbank Food and Drug Administration (FDA)-approved pharmaceuticals and ChEMBL].
Les scores QED étaient difficiles à distinguer entre les trois ensembles. Les motifs courants de chimie médicinale tels que les pyrazines, les pyrimidines, les sulfones, les imidazoles, les oxadiazoles, les phényles et les hétéroaromatiques bicycliques figuraient parmi les mieux classés. Les composés avec de longues chaînes de type flexible, des conjugaisons de doubles liaisons, des groupes inhabituels, des composants réactifs ou plusieurs alcools et carboxylates ont reçu d’excellentes notes.
En revanche, la minimisation de la fonction de notation a abouti à un mélange significatif de carbones aliphatiques de type sp3 et de cycles aromatiques, de fragments de taille appropriée et de groupes caractéristiques observés dans les composés ressemblant à des médicaments. La haute qualité des composés produits a révélé que la fonction du modèle de notation était très pertinente pour la création de médicaments de novo.
Conclusion
Dans l’ensemble, les résultats de l’étude ont montré que l’algorithme d’apprentissage automatique du score latent pourrait acquérir les connaissances des chimistes médicinaux, en fournissant davantage d’informations sur les attributs basés sur les ligands in silico ou sur les définitions de fragments. Cette méthode pourrait être utilisée dans des activités chimioinformatiques ordinaires telles que la dépriorisation de molécules non détectées par des techniques basées sur des règles ou une conception moléculaire biaisée.