Les polymorphes sont des molécules qui ont des arrangements moléculaires différents malgré des compositions chimiques identiques. Dans un article récent, des chercheurs de GlaxoSmithKline (GSK) et du Cambridge Crystallographic Data Center (CCDC) ont combiné leurs ensembles de données propriétaires (GSK) et publiés (CCDC) pour mieux former les modèles d’apprentissage automatique (ML) afin de prédire les polymorphes stables à utiliser dans un nouveau médicament. candidats.
Quelles sont les principales différences entre les ensembles de données CCDC et GSK ?
Le CCDC gère et maintient la Cambridge Structural Database (CSD). Au cours du siècle dernier, des scientifiques du monde entier ont fourni des structures cristallines expérimentales publiées au CSD, qui compte maintenant plus de 1,1 million de structures. Les auteurs de l’article ont utilisé un sous-ensemble de médicaments du CSD combiné à des structures de GSK. Les structures GSK ont été collectées à différentes étapes du pipeline pharmaceutique et ne se limitent pas aux produits commercialisés. Le co-auteur, le Dr Jason Cole, chercheur principal au sein de l’équipe de recherche et développement du CCDC, a expliqué pourquoi les structures réunies à différentes étapes du pipeline de découverte de médicaments sont si importantes.
« Dans la découverte de médicaments à un stade précoce, une structure cristalline peut aider à rationaliser les effets conformationnels, par exemple, ou à caractériser la chimie d’une nouvelle entité chimique là où d’autres techniques ont conduit à l’ambiguïté », a déclaré Cole. « Plus tard dans le processus, lorsqu’une nouvelle entité chimique est étudiée en tant que molécule candidate, les structures cristallines sont essentielles car elles informent la sélection de la forme et peuvent plus tard aider à surmonter les problèmes de formulation et de mise en comprimés. »
Ces informations peuvent aider les chercheurs à hiérarchiser leurs efforts, à gagner du temps et potentiellement des vies plus tard.
« En comprenant une gamme de structures cristallines, les scientifiques peuvent également évaluer le risque qu’une forme donnée soit instable à long terme », a déclaré Cole. « Une caractérisation complète du paysage structurel conduit à la confiance pour prendre une forme en avant. »
Comment les modèles de ML en science pharmaceutique bénéficient-ils de plusieurs ensembles de données ?
Les ensembles de données industrielles reflètent plus que la science ; ils reflètent des choix culturels au sein d’une organisation donnée.
« Vous ne trouverez des co-cristaux que si vous recherchez des co-cristaux », a déclaré Cole, à titre d’exemple. « La plupart des entreprises préfèrent formuler un médicament libre ou non lié. On peut supposer que les types de structures dans un ensemble industriel reflètent des décisions conscientes de rechercher des formes de types donnés, alors que moins de limites sont imposées aux chercheurs qui contribuent au CSD . »
Les modèles de ML bénéficient de deux éléments clés : le volume de données et la spécificité des données. C’est pourquoi il est si utile de coupler le volume et la variété des données du CSD avec des ensembles de données propriétaires.
« De grandes quantités de données conduisent à des prédictions plus fiables », a déclaré Cole. « Les données les plus directement pertinentes pour le problème conduisent à des prédictions plus précises. Dans les prédictions qui utilisent le logiciel CCDC, nous sélectionnons un sous-ensemble des entrées les plus pertinentes qui est suffisamment grand pour donner confiance. L’ensemble GSK est forcément très pertinent composés à d’autres composés de leur portefeuille commercial. Ainsi, le logiciel de création de modèles peut les utiliser. «
Les chercheurs industriels travaillant avec des données très pertinentes peuvent rencontrer des problèmes lorsqu’ils n’en ont pas assez pour générer des modèles fiables.
« Considérez que le logiciel CSD sélectionne généralement environ deux mille structures parmi les 1,1 million du CSD », a déclaré Cole. « L’ensemble industriel est minuscule en comparaison, mais vous pouvez choisir, disons, 40 ou 50 structures très pertinentes. Vous n’auriez pas suffisamment de données pour construire un bon modèle avec cela seul, mais les composés ajoutés du CSD complètent l’ensemble de données. En substance, en incluant les ensembles GSK et CSD, nous obtenons le meilleur des deux mondes : toutes les structures industrielles hautement pertinentes et un ensemble de structures CSD assez pertinentes ensemble pour construire un modèle de haute qualité. »
Pourquoi les polymorphes présentent-ils un risque pour l’industrie pharmaceutique ?
Les différents agencements d’emballage signifient qu’un polymorphe pourrait être plus adapté à l’administration thérapeutique, alors qu’une autre forme du même composé pourrait ne pas l’être. Les chercheurs utilisent des bases de données sur la structure cristalline pour faire des prédictions basées sur les connaissances pour savoir si un nouveau médicament potentiel est composé d’une bonne forme stable que les fabricants peuvent fabriquer, stocker et fournir de manière thérapeutique. Les auteurs de GSK et du CCDC ont réalisé une solide analyse des structures cristallines de petites molécules contenant les résultats de la diffraction des rayons X de GSK et de ses sociétés patrimoniales au cours des 40 dernières années. Ils ont ensuite combiné ces résultats avec un sous-ensemble de structures médicamenteuses du CSD du CCDC, qui contient plus de 1,1 million de structures cristallines organiques et métallo-organiques à petites molécules provenant de chercheurs du monde entier.