Dans une étude récente publiée dans npj Science de l'alimentationles chercheurs ont développé VirtuousMultiTaste, un outil d'apprentissage automatique permettant de distinguer les goûts sucrés, umami et amers en fonction des structures moléculaires d'un composé et de ses caractéristiques physico-chimiques sous-jacentes.
Arrière-plan
Le goût et l'odorat sont essentiels à la perception chimiosensorielle des aliments, influençant le choix et la consommation des repas. La perception du goût utilise cinq sensations fondamentales pour contrôler l'apport en nutriments et prévenir les substances toxiques : le sucré, l'amer, l'umami, le salé et l'acide. La compréhension des propriétés physicochimiques des composants alimentaires est essentielle pour influencer la saveur et l'apport.
Les progrès des algorithmes basés sur l’apprentissage automatique ont permis de catégoriser les goûts des composés chimiques ; cependant, il existe encore un potentiel d’amélioration dans la construction de modèles multi-classes capables d’anticiper le spectre complet des goûts fondamentaux, ce qui limite la science et la technologie alimentaires.
À propos de l'étude
Dans la présente étude, les chercheurs ont utilisé des approches d’apprentissage automatique et d’optimisation heuristique pour anticiper différentes expériences gustatives dans les produits chimiques.
L'ensemble de données de l'étude comprenait une collection de composés accessibles au public avec des saveurs validées regroupées en neuf groupes de goûts. La première base de données contenait 5 290 produits chimiques pour les goûts sucrés et amers et 2 549 pour l'umami. L'ensemble de données final comprenait 4 717 produits chimiques, avec une sélection aléatoire choisie pour l'entraînement. Les chercheurs ont suréchantillonné la classe Umami avec 133 échantillons en utilisant la méthode Adaptive Boosting (AdaBoost) comme étape de prétraitement supplémentaire.
Les chercheurs ont utilisé l'analyse en composantes principales (ACP) pour évaluer les caractéristiques moléculaires, en identifiant 1 306 qui étaient significativement différentes en termes de réduction de dimensionnalité. L'autocorrélation d'une structure topologique (ATS) était la classe descriptrice la plus courante parmi les 15 traits choisis.
Les chercheurs ont utilisé des réductions de dimensionnalité d'ensemble à l'aide d'algorithmes d'optimisation basés sur Pareto pour améliorer la précision de la prédiction, diminuer les caractéristiques choisies et simplifier la classification. Les cibles d'optimisation comprenaient la précision (ACC), la minimisation du nombre de caractéristiques sélectionnées 1, le score F1 10, la précision (PRC), le score F2 1, le rappel (REC), l'aire sous la courbe caractéristique de fonctionnement du récepteur (AUC), la distance de Manhattan 1 et la minimisation des arbres 1 (numéro SV).
Les chercheurs ont utilisé des classificateurs de forêt aléatoire (RF) qui ont surpassé les machines à vecteurs de support (SVM) pour différents objectifs. Ils ont comparé 20 modèles RF différents et ont choisi le meilleur en fonction de ses performances et du nombre minimal de fonctionnalités. Ils ont utilisé une validation croisée (CV) 10 fois sur l'ensemble de données d'entraînement. L'autocorrélation d'une structure topologique (ATS) était la classe de descripteurs la plus couramment utilisée parmi les 15 caractéristiques spécifiées. Les chercheurs ont calculé les descripteurs d'autocorrélation en utilisant les autocorrélations Moreau-Broto pondérées par l'électronégativité d'Allred-Rocow, Pauling et Sanderson, la masse, la charge de Gasteiger, le numéro atomique, le potentiel d'ionisation, la polarisabilité et l'état intrinsèque.
Les chercheurs ont évalué les performances du modèle par rapport à des bases de données externes sur les aliments et les produits naturels telles que FooDB, FlavorDB, PhenolExplorer, Natural Product Atlas et PhytoHub. Ils ont comparé le café et le chocolat en fonction de leur contenu proportionnel dans FooDB. Ils ont également évalué le modèle par rapport aux algorithmes et pipelines d'apprentissage automatique fréquemment utilisés.
Les chercheurs ont évalué l'applicabilité du modèle en comparant la similarité entre les substances testées et les produits chimiques utilisés pendant la formation. Ils ont utilisé Morgan Fingerprints et l'indice de similarité Tanimoto pour obtenir des scores de similarité moyens entre les composés testés et ceux utilisés pendant la formation et ont comparé VirtuousMultiTaste aux prédicteurs de goût VirtuousBitterSweet et VirtuousUmami précédemment développés.
Résultats
Français Lors de la validation croisée, le modèle RF choisi a obtenu une valeur AUC de 0,92, une précision de 77 % et un rappel de 77 %. L'ensemble de tests a montré une AUC de 0,87, avec une précision de 79 % et un rappel de 72 %. La saveur umami avait les valeurs AUC les plus élevées (0,98), suivie du goût amer (0,92) et du groupe des « autres » goûts (0,86). Le modèle VirtuousMultiTaste a obtenu de meilleurs résultats dans la prédiction du goût amer, avec une précision, une précision, un rappel et des valeurs F1 et F2 d'environ 83 %. Le café avait un profil de goût principalement amer, avec 130 produits chimiques amers projetés, tandis que le chocolat avait 96 composés amers, 33 composés sucrés, quatre composés umami et 13 autres composés gustatifs.
VirtuousMultiTaste a battu les autres classificateurs sur les mesures de performance. VirtuousMultiTaste et VirtuousUmami avaient des valeurs de précision et d'AUC comparables, mais des valeurs de précision, de rappel, de F1 et de F2 légèrement inférieures. Les deux méthodes ont atteint une précision de plus de 99 % dans les évaluations utilisant des produits chimiques non umami autres que ceux utilisés dans la formation. VirtuousMultiTaste pourrait anticiper les composés umami plutôt que les peptides, permettant une étude chimique plus large. Les performances du modèle sont restées constantes dans tous les quartiles de similarité, montrant une applicabilité généralisée.
Sur la base des résultats de l'étude, l'outil d'apprentissage automatique VirtuousMultiTaste peut analyser rapidement les bases de données chimiques pour les composés candidats avec des qualités gustatives prédites. Il a démontré une excellente capacité à anticiper simultanément de nombreuses sensations gustatives, indiquant la possibilité d'une intégration dans la perception multisensorielle. L'outil prédit quatre goûts et permet l'analyse de divers produits chimiques et la connaissance des processus physico-chimiques qui influencent la perception gustative globale.
Cependant, il est difficile de comprendre intuitivement les propriétés chimiques et physiques des substances gustatives à partir de 15 caractéristiques principales. Les recherches futures devraient se concentrer sur des descripteurs simples ou créer des approches particulières pour corréler les descripteurs moléculaires aux caractéristiques structurelles ou aux groupements fonctionnels.

















