Dans cette interview, Data Scientist Federico Paruzzo explique comment Bruker a utilisé l'apprentissage en profondeur pour développer la nouvelle commande, et comment elle se compare aux autres approches disponibles. Federico présentera également le Sigreg, le premier système de détection automatique de région de signal basé sur 1Spectres RMN H qui est la dernière édition du logiciel TopSpin de Bruker.
Sommaire
Comment les données de signal RMN sont-elles généralement intégrées?
Avec la RMN, il est important de détecter et d'intégrer chaque région de signal. Vous pouvez ensuite utiliser ces informations pour quantifier vos composés, par exemple, ou pour effectuer des mesures de relaxation. Il existe actuellement plusieurs façons de le faire à l'aide de TopSpin.
Il vous suffit d'ouvrir un ensemble de données. Alternativement, vous pouvez utiliser la commande d'intégration, qui ouvrira votre fenêtre d'intégration. À partir de là, vous pouvez définir chaque nouvelle région, puis intégrer chaque région dans le spectre séparément et enregistrer vos modifications une fois que vous avez terminé. Cela fera apparaître votre système intégré.
Cependant, ce processus peut être long et frustrant. L'intégration d'un spectre simple peut prendre environ 20 à 25 secondes, mais imaginez si vous devez gérer des dizaines de spectres en une journée. Cela prend encore plus de temps lorsque vous devez gérer des spectres plus compliqués.
Il existe des méthodes pour effectuer cette intégration automatiquement. Vous pouvez utiliser, par exemple, la commande d'auto-intégration disponible dans TopSpin en tapant « int auto » ou en cliquant sur le bouton d'intégration automatique.
toutefois, le résultat n'est pas optimal et ne correspond pas tout à fait à ce que nous ferions manuellement. Cette commande, en particulier, dépend de nombreux paramètres et si vous les ajustez tous, vous pouvez obtenir un meilleur résultat
Cependant, ce réglage fin prend beaucoup de temps, est lourd et peut empêcher l'utilisation de cette commande pour l'intégration automatique de nombreux spectres différents.
Une autre alternative est la commande apbk. La commande apbk est une nouvelle commande introduite dans Topspin, pour effectuer la correction automatique de phase et de base des spectres des noyaux X.
Maintenant, vous pourriez dire que ce n'est pas destiné à être utilisé sur le spectre total, ce qui est correct. Mais vous pouvez forcer la commande apbk à travailler sur le spectre total en utilisant le plug “-f.
Si vous faites cela, vous verrez le détecteur de région de signal. Mais encore une fois, ce résultat est loin de ce que vous sélectionneriez manuellement. Ce n'est pas surprenant. Encore une fois, la commande apbk n'était pas censée fonctionner sur le spectre total. Ce n'est donc pas une alternative à l'intégration manuelle.
Crédit d'image: Shutterstock / angellodeco
Comment Bruker utilise l'apprentissage en profondeur pour améliorer l'intégration RMN automatisée?
Le défi pour notre équipe était de demander, « pouvons-nous faire mieux? » Pourrions-nous développer une commande qui fait une intégration de la façon dont un utilisateur le ferait sans nécessiter le réglage fin de tant de paramètres?
Pour ce faire, nous avons formé un réseau neuronal profond pour interpréter les spectres RMN en utilisant un apprentissage supervisé. Pour cela, nous avons besoin de beaucoup de données d'apprentissage, y compris de nombreux spectres RMN avec les étiquettes correspondantes pour la propriété que nous voulons apprendre, qui dans ce cas sont des régions de signal.
Et puis nous devons créer notre réseau neuronal profond. En donnant notre formation au réseau neuronal, nous formons notre réseau neuronal. Une fois que le réseau est formé, nous pouvons prendre un nouveau spectre, le donner au réseau et il produira les étiquettes de prédicteur.
Comme ensemble de formation, nous avons utilisé 500 000 générés artificiellement 1Spectres RMN H.
Nous avons utilisé différentes fréquences de base de 80 à 800 MHz pour générer des spectres dans une large gamme de rapports signal / bruit et alignés avec l'intensité de la solvabilité.
Nous avons décidé d'utiliser un réseau neuronal convolutif inspiré du réseau U-Net. L'U-Net est un réseau neuronal entièrement convolutionnel, qui est utilisé pour la segmentation d'images dans des applications biomédicales.
En combinant le net avec l'ensemble de formation, nous avons créé sigreg, la toute première commande basée sur l'apprentissage automatique disponible dans TopSpin. Il vous permettra de faire un détecteur de région de signal sans paramètre entièrement automatique dans 1Spectres RMN H.
Comment avez-vous testé les limites de votre modèle?
Pour tester les limites de cet algorithme, nous créons un spectre simple, un spectre artificiel composé d'un seul centre de signal sur 7,5 ppm. Nous avons ensuite testé le modèle en fonction du rapport signal / bruit, de l'intensité du solvant et de la largeur de ligne.
Test contre le rapport signal / bruit. Nous avons conservé l'intensité du composé du signal et avons modifié la valeur du bruit afin de faire correspondre différentes valeurs des rapports signal / bruit.
Sigreg fonctionne bien avec un rapport signal / bruit de 100 et de 20. À un rapport signal / bruit de 10, sigreg est toujours en mesure de déterminer les pics, mais cette valeur est un peu limite car c'est la limite de notre formation ensemble.
Par conséquent, à un rapport signal / bruit inférieur à dix, il n'est plus en mesure de détecter le pic. Nous continuerons à développer cet algorithme donc, à l'avenir, je ne serai pas surpris si nous pouvons aller à des valeurs plus faibles de signal-bruit.
Test contre l'intensité des solvants. Nous avons légèrement déplacé notre pic d'intérêt de 7,5 à 7,3 ppm et ajouté un deuxième pic avec une intensité plus élevée que notre autre pic pour simuler la présence d'un solvant.
Pour tous nos spectres, nous avons gardé le signal-bruit de notre pic d'intérêt constant et varié l'intensité du solvant. Sigreg fonctionne très bien avec le solvant lorsqu'il est dix ou cent fois plus grand que le pic d'intérêt. Lorsque le solvant atteint trois ordres ou plus que notre pic d'intérêt, sigreg est toujours en mesure de détecter notre signal.
Cependant, si les limites de détection sont beaucoup plus élevées, la zone détectée est beaucoup plus large et sigreg devient moins précis. Si le solvant représente plus de dix fois notre signal d'intérêt, alors sigreg n'est plus en mesure de détecter le signal.
Test par rapport à la largeur de ligne. Encore une fois, nous avons pris un seul pic et gardé l'intensité constante. Nous avons également gardé le niveau signal / bruit inchangé, et nous avons juste changé la largeur de ligne de notre pic. Sigreg a bien fonctionné pour une large gamme de largeurs de ligne allant de cinq à 500 Hz.
Comment sigreg fonctionne-t-il avec les spectres RMN expérimentaux?
Pour évaluer les performances de notre modèle, nous avons exécuté sigreg sur 100 spectres RMN expérimentaux. Les signaux dans les spectres RMN expérimentaux ont été marqués par nos experts RMN.
Nous avons constaté que le nombre de signaux détectés par nos experts correspondait bien au nombre de signaux détectés par sigreg. Sigreg montre un assez bon résultat. La plupart de nos points se trouvent le long de cette ligne de corrélation parfaite.
Crédit d'image: Shutterstock / Lisa-S
Comment cela se compare-t-il aux autres commandes?
Int auto donne des résultats raisonnables, mais l'accord entre les experts et int auto est beaucoup plus faible que l'accord avec sigreg et les experts.
D'un autre côté, apbk a tendance à sous-estimer fortement, ce qui signifie qu'il détecte moins de signaux que les experts. Ce n'est pas surprenant, car apbk n'a pas été développé pour fonctionner sur 1Spectres RMN H à n'importe quel spectre dans la gamme de 80 MHz à 1,2 GHz. Chez Bruker, nous sommes également très intéressés à ajouter une commande qui fonctionne bien sur une large gamme de fréquences de base.
Vingt-cinq de nos spectres ont été obtenus à 80 MHz, et 75 ont été obtenus à des fréquences plus élevées, à partir de 300 MHz et plus. Sigreg a donné de bons résultats pour ces spectres à 80 MHz et pour int auto, les résultats étaient raisonnables. Alors que apbk a tendance à sous-estimer, plus sévèrement, les spectres obtenus à 80 MHz par rapport à tous les autres.
Comment le calcul du F1 score aider à confirmer l'exactitude de sigreg?
Même si le nombre de pics nous donne une idée du fonctionnement de cet algorithme, il ne donne pas vraiment une idée de la précision. Et c'est pourquoi, pour estimer les performances du modèle, nous avons décidé de calculer la F1 score pour chaque spectre.
Si vous n'êtes pas familier avec le concept, le F1 le score est une métrique qui est utilisée dans l'analyse statistique pour évaluer la précision de ce modèle. La force du F1 le score réside dans le fait qu'il dépend de la précision et du rappel. La précision nous indique combien de détections de régions de signaux se trouvent réellement dans les régions. Ceci est donné par les vrais positifs, les régions de signal détectées comme régions de signal sur la somme des vrais positifs et des faux positifs. Les faux positifs sont les régions de bruit détectées comme régions de signal.
Bien que le rappel nous indique combien de régions de signal sont détectées par le modèle. Ceci est donné par les vrais positifs (les signaux détectés comme signal), sur la somme des vrais positifs et des faux négatifs. Parce que les négatifs sont les régions du signal, qui sont détectées comme du bruit.
Nous avons calculé le F1 score pour les 100 spectres. Sigreg donne de meilleurs résultats par rapport aux deux autres commandes, en termes de F1 But. Nous avons un score F1 moyen de 91,8% pour les commandes int auto, sigreg et apbk -f. Mais la plupart de nos spectres avec sigreg ont un score F1 supérieur à 95%.
Int auto de l'autre côté a une moyenne inférieure à F1 score – 87,1%. Ce résultat est beaucoup plus répandu que sigreg, certains spectres étant inférieurs à 60%.
Le résultat le plus bas a été donné par apbk, 80%, avec un étalement beaucoup plus élevé. C'est toujours un résultat remarquable pour apbk, étant donné que cette commande n'a pas été développée pour fonctionner sur les spectres RMN totaux.
Nous pouvons également vérifier comment ces résultats dépendent de la fréquence de base en regardant les résultats que nous avons obtenus à 80 MHz. En auto fournit certains des meilleurs résultats à basse fréquence. Donc, 80 MHz sont les spectres qui donnent réellement le meilleur F1 scores pour cette commande. Apbk de l'autre côté donne le pire résultat avec des spectres basse fréquence. Sigreg est le seul qui donne des résultats comparables dans une large gamme de fréquences de base.
Est-il facile d'utiliser sigreg?
L'utilisation de sigreg est très simple. Il vous suffit d'ouvrir votre jeu de données dans TopSpin, de taper «sigreg» et d'obtenir votre détecteur de région de signal en quelques millisecondes seulement. Il n'y a aucun paramètre à configurer. Vous pouvez également facilement inclure le graphique dans votre routine automatique en utilisant la macro ou la lettre majuscule que vous pouvez inclure dans vos programmes AU.
Sigreg travaille avec des spectres complexes. Nous avons montré qu'il fonctionne également très bien pour détecter de larges pics, et avec des spectres avec un grand pic de solvant. Sigreg fonctionne également avec des spectres bruyants.
En ce qui concerne la distorsion de phase, sigreg est également capable de détecter des pics dans les phases du spectre à condition que la distorsion de phase soit raisonnable. Sigreg fonctionne également bien avec les spectres obtenus aux basses fréquences, démontrant une bonne résolution même à 80 MHz.
Sigreg est inclus dans la dernière version de TopSpin, nous espérons donc que vous le testerez et nous enverrez vos commentaires.