Ces dernières années, les modèles d'apprentissage automatique sont devenus de plus en plus populaires pour l'évaluation des risques des composés chimiques. Cependant, ils sont souvent considérés comme des « boîtes noires » en raison de leur manque de transparence, ce qui suscite le scepticisme des toxicologues et des autorités réglementaires. Pour accroître la confiance dans ces modèles, des chercheurs de l'Université de Vienne ont proposé d'identifier soigneusement les domaines de l'espace chimique où ces modèles sont faibles. Ils ont développé un outil logiciel innovant ('MolCompass') à cet effet et les résultats de cette approche de recherche viennent d'être publiés dans la prestigieuse revue Journal de chimioinformatique.
Au fil des ans, de nouveaux produits pharmaceutiques et cosmétiques ont été testés sur des animaux. Ces tests sont coûteux, soulèvent des questions éthiques et ne permettent souvent pas de prédire avec précision les réactions humaines. Récemment, l'Union européenne a soutenu le projet RISK-HUNT3R visant à développer la prochaine génération de méthodes d'évaluation des risques sans recours aux animaux. L'Université de Vienne est membre du consortium du projet. Les méthodes informatiques permettent désormais d'évaluer les risques toxicologiques et environnementaux des nouveaux produits chimiques entièrement par ordinateur, sans qu'il soit nécessaire de synthétiser les composés chimiques. Mais une question demeure : dans quelle mesure ces modèles informatiques sont-ils fiables ?
Tout est une question de prédiction fiable
Pour résoudre ce problème, Sergey Sosnin, scientifique senior du groupe de recherche en pharmaco-informatique de l'université de Vienne, s'est concentré sur la classification binaire. Dans ce contexte, un modèle d'apprentissage automatique fournit un score de probabilité de 0 % à 100 %, indiquant si un composé chimique est actif ou non (par exemple, toxique ou non toxique, bioaccumulable ou non bioaccumulable, liant ou non une protéine humaine spécifique). Cette probabilité reflète la confiance du modèle dans sa prédiction. Idéalement, le modèle ne devrait avoir confiance que dans ses prédictions correctes. Si le modèle est incertain, donnant un score de confiance d'environ 51 %, ces prédictions peuvent être ignorées au profit de méthodes alternatives. Un défi se pose cependant lorsque le modèle a entièrement confiance dans des prédictions incorrectes.
C'est le véritable cauchemar d'un toxicologue informatique. Si un modèle prédit qu'un composé n'est pas toxique avec une confiance de 99 %, mais que le composé est en réalité toxique, il n'y a aucun moyen de savoir qu'il y a un problème.
Sergey Sosnin, chercheur principal du groupe de recherche en pharmaco-informatique de l'université de Vienne
La seule solution consiste à identifier à l'avance les zones de « l'espace chimique » – englobant les classes possibles de composés organiques – où le modèle présente des « angles morts » et à les éviter. Pour ce faire, un chercheur évaluant le modèle doit vérifier les résultats prédits pour des milliers de composés chimiques un par un – une tâche fastidieuse et sujette aux erreurs.
Surmonter cet obstacle important
« Pour aider ces chercheurs », poursuit Sosnin, « nous avons développé des outils graphiques interactifs qui affichent les composés chimiques sur un plan 2D, comme des cartes géographiques. À l'aide de couleurs, nous mettons en évidence les composés qui ont été prédits de manière erronée avec un haut degré de confiance, ce qui permet aux utilisateurs de les identifier sous forme de groupes de points rouges. La carte est interactive, ce qui permet aux utilisateurs d'étudier l'espace chimique et d'explorer les régions préoccupantes. »
La méthodologie a été prouvée à l'aide d'un modèle de liaison aux récepteurs d'œstrogènes. Après une analyse visuelle de l'espace chimique, il est apparu clairement que le modèle fonctionne bien pour les stéroïdes et les biphényles polychlorés, par exemple, mais échoue complètement pour les petits composés non cycliques et ne doit pas être utilisé pour eux.
Le logiciel développé dans le cadre de ce projet est disponible gratuitement pour la communauté sur GitHub. Sergey Sosnin espère que MolCompass permettra aux chimistes et aux toxicologues de mieux comprendre les limites des modèles informatiques. Cette étude est un pas vers un avenir où les tests sur les animaux ne seront plus nécessaires et où le seul lieu de travail pour un toxicologue sera un bureau d'ordinateur.