La spectrométrie de masse a toujours eu une puissante synergie avec les ordinateurs. Les ordinateurs ont fait avancer la spectrométrie de masse à des moments clés de son histoire, de la collecte de données à l'utilisation des instruments en passant par l'analyse des données. La protéomique a été rendue possible par la spectrométrie de masse en tandem et l'informatique pour attribuer rapidement des séquences d'acides aminés aux spectres.
À mesure que l'instrumentation est devenue plus puissante, les capacités informatiques se sont développées pour suivre le rythme de l'augmentation de la production de données et des types de données. Des flux de travail sophistiqués sont utilisés pour traiter des expériences protéomiques qui englobent la recherche, la quantification et le traitement statistique des données. Au fur et à mesure que de nouvelles fonctionnalités sont ajoutées aux spectromètres de masse comme la mobilité ionique, cela fournit une capacité supplémentaire pour collecter des données et des informations pour interpréter les peptides et les caractéristiques des peptides. IP2 est une plate-forme protéomique qui crée un flux de travail combinant la recherche alimentée par GPU, la quantification flexible et l'analyse statistique des données.
Sommaire
Pouvez-vous nous parler de l'évolution de la relation entre la spectrométrie de masse et les ordinateurs?
La spectrométrie de masse et les ordinateurs ont entretenu une relation intéressante au fil des ans. Il existe un concept connu sous le nom de «adjacent possible» (introduit par Stuart Kauffman en 2002) qui stipule que l’évolution et l’innovation ont tendance à se produire progressivement, dans le domaine des possibilités disponibles à tout moment.
Cette idée a été extrêmement pertinente pour la spectrométrie de masse. Si vous regardez l'histoire de la spectrométrie de masse, une grande partie des premiers travaux a eu lieu dans des établissements universitaires où des ordinateurs étaient également en cours de développement.
Cela a conduit à des collaborations où des ordinateurs ont été utilisés dans divers projets tels que des calculs de masse complexes et précis pour des formules moléculaires. Finalement, une technologie s'est développée qui a permis aux ordinateurs de commencer à enregistrer la masse à l'envers plutôt que d'utiliser la plaque photographique traditionnelle. Avec le temps, les algorithmes informatiques ont pu commencer à traiter les données plus efficacement, ce qui vous a permis d'en tirer beaucoup plus.
Quelle est l'importance du crowdsourcing et de la technologie actuelle dans le développement de la spectrométrie de masse?
Incroyablement important. À peu près au même moment que les progrès de l'informatique mentionnés plus haut, les gens se sont rendu compte qu'ils ne devraient pas avoir besoin d'interpréter les spectres de masse plus d'une fois.
Cela a conduit à l'idée de créer des bibliothèques de spectres déjà interprétées et de les partager, et cette pratique a en fait ouvert le concept de recherche de bibliothèque. Il s'agit d'un premier exemple de crowdsourcing au sein de la communauté scientifique.
À cette époque, les ordinateurs ne disposaient pas de grandes quantités d'espace de stockage ou de mémoire. Les algorithmes devaient être très intelligents pour réduire la quantité d'informations et de technologies nécessaires pour effectuer la recherche dans la bibliothèque. L'acquisition de données contrôlée par ordinateur a cédé la place à l'acquisition dépendante des données, puis finalement à l'acquisition indépendante des données, permettant l'analyse à grande échelle des peptides.
Il était maintenant possible de traiter un spectre de masse en tandem de peptides et de codes-barres de séquence d'acides aminés, en l'utilisant pour parcourir une base de données et identifier la séquence d'acides aminés qui est représentée.
Cette approche a permis des expériences à haut débit et à grande échelle qui pourraient accueillir des systèmes biologiques très complexes, des complexes protéiques et des organites aux cellules et tissus. Cependant, cela a généré plus de données et plus d'analyses, ce qui a nécessité une organisation plus poussée.
Comment les développements de l'informatique ont-ils influencé le potentiel de la spectrométrie de masse?
Les développements de la spectrométrie de masse ont mis beaucoup d'efforts sur notre capacité à collecter, analyser, organiser et interpréter les données. C'est là que l'informatique est devenue importante, avec des outils logiciels et des scripts allant de l'extraction de données, des moteurs de recherche et de l'analyse quantitative aux outils de validation, aux outils de notation de confiance et aux référentiels de données devenant monnaie courante – ces derniers utilisant régulièrement Microsoft Excel comme support de stockage. , bien que nous nous en éloignions car ce n'est pas idéal.
Il est important que les données puissent être utilisées au sein du laboratoire, c'est pourquoi chez Bruker, nous avons développé des outils d'analyse de la structure des protéines et de l'enrichissement des gènes dans cet esprit.
Pouvez-vous donner à nos lecteurs un aperçu de la plate-forme IP2?
Il y a quelques années, nous avons fait une comparaison entre les outils d'extraction de données disponibles, et nous avons constaté une grande variabilité en termes de capacités. C'est l'une des étapes les plus importantes du processus, mais le problème avec autant d'outils logiciels disponibles est que la compatibilité peut être difficile à obtenir sur tout un flux de travail.
Nous avons lancé une société appelée Integrated Proteomics Applications, développant un échafaudage de flux de travail appelé Integrated Proteomics Pipeline (IP2). L'idée derrière cet échafaudage est que nous pouvons intégrer des outils que nous avons développés dans le milieu universitaire (qui étaient disponibles gratuitement et open-source) dans ce pipeline IP, créant ainsi un flux de travail rationalisé avec des outils d'analyse de données intégrés.
L'IP2 est un programme de couche intermédiaire qui gère les analyses, le contrôle de la qualité spectrale, les couches back-end, les liens vers le cloud et le cluster computing, le stockage des données et la sauvegarde.
Les utilisateurs peuvent accéder à leurs données ou afficher l'état des processus à l'aide d'un ordinateur de bureau, d'un téléphone ou d'une tablette. L’IP2 est également personnalisable via le kit de développement IP2, ce qui signifie que les utilisateurs peuvent adapter la plate-forme pour fonctionner avec d’autres logiciels et applications.
L'IP2 peut fonctionner avec une analyse de données protéomique parallèle à grande échelle, et nous avons pu intégrer notre plate-forme au cloud computing via les outils Amazon Web Services, Google Cloud et Microsoft Cloud. Nous tirons également parti des GPU, à la fois dans notre système de laboratoire et dans le cloud, pour augmenter la vitesse et l'efficacité de la plate-forme.
Comment l'utilisation du traitement GPU affecte-t-elle les performances de l'IP2?
L'IP2 permet l'utilisation d'un moteur de recherche GPU, et cette utilisation de cœurs GPU plutôt que de cœurs CPU le rend extrêmement rapide. Une carte GPU aura des milliers de cœurs GPU, et vous pouvez ajouter encore plus de cartes GPU pour améliorer la vitesse. Le cœur du GPU permet la recherche de bases de données à des taux incroyablement rapides, et la recherche de bases de données évolue avec la puissance de calcul.
Nous avons cherché à utiliser des recherches doubles pour améliorer la qualité des données, en intégrant cette fonctionnalité dans l'IP2. Ici, vous transmettez les données DDA que vous avez recherchées dans une base de données de séquences, puis vous utilisez ces données pour créer une bibliothèque. Vous pouvez ensuite rechercher vos données DDA une deuxième fois à l'aide de cette bibliothèque. Cette approche peut améliorer considérablement la reproductibilité des données, et l'utilisation de cœurs GPU nous donne la puissance de traitement pour y parvenir.
Pouvez-vous également parler à nos lecteurs de la plate-forme timsTOF et de son intégration avec l'IP2?
Le timsTOF de Bruker est un outil conçu pour mesurer la mobilité ionique. Il s'agit d'une extension puissante de la spectrométrie de masse qui nous donne des informations sur la structure tridimensionnelle d'un ion, nous aidant à augmenter la capacité des pics et la confiance globale dans la caractérisation du composé.
Nous avons optimisé nos plates-formes, nos outils et notre moteur de recherche pour timsTOF, en particulier sur la façon dont nous extrayons les données des fichiers bruts de timsTOF, qui sont volumineux et contiennent beaucoup d'informations.
Le résultat de ce travail a été un programme d'extraction robuste: le timsTOFExtractor, le moteur de recherche ProLuCID (qui utilise la technologie de traitement GPU dont nous avons parlé plus tôt), l'application d'analyse des données quantitatives du recensement et PaSER (Parallel Database Search Engine in Real-Time ) pour timsTOF.
Quels sont les défis liés au développement d'outils de moteur de recherche pour la métaprotéomique et l'analyse des données sur le microbiome?
Travailler avec des données sur le microbiome est extrêmement difficile en raison de sa grande base de données de séquences. Cela représente actuellement environ 70 gigaoctets et continue de croître. La base de données d'index pour ces données a une taille supérieure à un téraoctet, ce qui signifie qu'il est difficile de la rechercher à l'aide de stratégies de recherche traditionnelles.
Pour y remédier, nous avons travaillé avec Dennis Wallen du Scripps Research Institute pour développer le moteur de recherche ProLuCID-ComPIL.
Le ProLuCID-ComPIL pré-trie et pré-analyse les données en utilisant NoSQL pour améliorer le temps de recherche. Ces algorithmes et processus peuvent également être utilisés avec des PTM et des variantes de séquence, ceux-ci étant transférés dans une base de données d'index, qui est ensuite recherchée à grande vitesse à l'aide du GPU.
Nous avons également pu nous intéresser à la métabolomique grâce à notre travail avec Yu Gao à l'UCSD et à son outil d'alignement spectral Dilu.
Pouvez-vous nous en dire plus sur le système PaSER?
Notre système PaSER est un moteur de recherche de base de données parallèle qui peut fonctionner en temps réel. De nombreuses applications numérisent extrêmement rapidement, générant un grand nombre de spectres, donc l'un des principaux avantages de la recherche en temps réel est qu'il n'est pas nécessaire de procéder à l'extraction des données – il vous suffit de prendre les données directement du spectromètre de masse et de rechercher tout de suite. Il n'est pas nécessaire de télécharger les données.
Le système PaSER est suffisamment rapide pour pouvoir accueillir plusieurs instruments à la fois, mais notre objectif avec la plate-forme PaSER n'est pas seulement une recherche en temps réel. Nous voulons continuer à relever les nombreux défis liés à la fourniture d'une fonctionnalité de recherche en temps réel efficace.
La vitesse du moteur de recherche est essentielle pour suivre le rythme de la vitesse de balayage rapide des instruments qui l’alimentent.
Comme la plate-forme IP2, le PaSER utilise des cœurs GPU au lieu de cœurs CPU, garantissant des améliorations de vitesse considérables par rapport à la technologie de recherche traditionnelle. Cela signifie qu'il est possible d'envoyer des données d'un instrument à un boîtier IP2-GPU en temps réel et que le résultat de la recherche dans la base de données sera disponible immédiatement après la fin de l'expérience.
Comment avez-vous évalué les augmentations de vitesse de PaSER par rapport aux recherches hors connexion traditionnelles?
Afin d'évaluer le PaSER, nous avons exécuté quelques échantillons sur timsTOF Pro – à savoir HeLa à 200 nanogrammes. Nous avons exécuté six réplicats techniques. La première exécution était une recherche en temps réel, suivie d'une absence de recherche en temps réel. Cela a été répété dans les exécutions trois et quatre, avant d'effectuer deux autres recherches en temps réel dans les exécutions cinq et six.
Les objectifs de cette expérience étaient d'identifier tout retard dans la vitesse de numérisation et de vérifier si le nombre d'identifications réussies a été affecté par l'utilisation de la recherche en temps réel.
L'expérience a révélé que l'utilisation de la recherche en temps réel n'affectait pas le temps de numérisation. Nous avons également constaté que dans l'ensemble, l'utilisation de la recherche en temps réel renvoyait le même nombre de résultats identifiés qu'une recherche hors ligne standard.
Nous avons également évalué le temps de recherche hors ligne. Parfois, après une recherche en temps réel, les utilisateurs peuvent souhaiter effectuer une nouvelle recherche avec différents paramètres ou dans différentes bases de données. Dans ce scénario, il n'est toujours pas nécessaire de convertir les données brutes car la recherche initiale en temps réel a déjà stocké les spectres et les a transférés vers la base de données. Dans notre exemple, il n'a fallu que trois minutes pour chaque recherche à l'aide du moteur de recherche IP2-GPU.
Comment l'outil Smart Precursor Selection améliore-t-il le processus de recherche?
L’outil Smart Precursor Selection de PaSER permet à PaSER de communiquer avec les instruments de manière bidirectionnelle. Cela ouvre de nombreuses possibilités créatives, en fonction de l'objectif de votre projet.
Par exemple, nous pouvons utiliser cet outil pour implémenter des listes d'exclusion. Cette idée existe depuis longtemps, mais elle n'est pas très populaire car elle n'est pas très facile à mettre en œuvre. Historiquement, les utilisateurs devaient collecter manuellement les ID de peptides à partir des résultats de recherche, puis saisir manuellement la liste d'exclusion. Au fur et à mesure que les idées se développaient, ce processus a dû être répété, ce qui, bien entendu, n'est pas idéal.
PaSER nous permet de construire automatiquement la liste d'exclusion, dès la première expérience. PaSER transmettra ensuite cette liste d'exclusion à la deuxième expérience, et ainsi de suite, en affinant la liste d'exclusion à chaque itération. Cette approche permet à nos recherches et expériences de produire des résultats plus précis au fil du temps.
Un autre exemple est la gestion dynamique de la dérive de masse due aux changements de température ou à des problèmes d'étalonnage. Grâce à la recherche en temps réel de PaSER, nous pouvons mesurer la masse delta entre les ions précurseurs peptidiques théoriques et expérimentaux. Nous pouvons alors renvoyer la masse delta à l'instrument et l'instrument peut calibrer la dérive de masse de manière dynamique et en temps réel. Cela signifie que si nous effectuons dix essais ou cent essais, l'étalonnage de masse est toujours à jour.
Lorsque nous travaillons avec une analyse quantitative basée sur MS1 avec marquage, nous serons souvent présentés avec des ions légers et lourds pour le même peptide. Pour l'analyse quantitative, nous n'avons pas besoin d'utiliser les deux ions précurseurs – un seul suffit pour quantifier l'échantillon car nous connaissons déjà la différence de masse entre les ions légers et lourds.
Lors de la recherche en temps réel, nous pouvons déterminer si nous travaillons avec un peptide lourd ou léger, puis nous pouvons exclure dynamiquement l'autre de la paire, afin de ne pas avoir à générer de spectres redondants.
Nous pouvons également utiliser cet outil pour travailler avec des techniques d'étiquetage spécifiques au site telles que l'étiquetage AHA ou l'étiquetage de balises TEV. Par exemple, le marquage AHA peut étiqueter la méthionine, tandis que le marquage TEV peut étiqueter la cystéine. Selon la base de données UniProt, environ 65% des peptides ne contiennent ni cystéine ni méthionine. Avec ces données, nous pouvons exclure de nombreux peptides en temps réel, en les scannant sélectivement le cas échéant.
Comment PaSER prend-il en charge les spectres PASEF dynamiques et la quantification en temps réel?
PaSER peut utiliser PASEF, ou Parallel Accumulation Serial Fragmentation dans le cadre de son fonctionnement. Dans chaque cycle PASEF, nous combinons des cadres pour construire un scan PASEF, mais en fonction de l'abondance des ions, un cycle PASEF peut ne pas avoir assez d'ions pour produire un résultat.
Ici, la recherche en temps réel peut vérifier le score de recherche et évaluer les spectres. Si cette vérification révèle que l'analyse passive nécessite plus de signal, plus de trames peuvent être ajoutées pour augmenter cela.
Nous avons besoin de connaître le point de sommet pour pouvoir déclencher efficacement les spectres en tandem, et nous pouvons le faire pendant une recherche en temps réel en évaluant un chromatogramme et en ne déclenchant que des précurseurs une fois que le point de pointe a été déterminé. Nous pouvons également supprimer dynamiquement l'ion de la liste d'exclusion au moment le plus approprié.
Enfin, nous travaillons également sur les capacités quantitatives en temps réel avec le timTOF. Au lieu d'une zone de pic XYZ typique, nous pouvons calculer le volume d'un peptide en utilisant la mobilité ionique.
Il est également possible de séparer les peptides co-éludés avec l'identifiant du peptide à partir de la recherche en temps réel, ce qui signifie que nous pouvons effectuer une analyse quantitative en parallèle. Si nous travaillons avec plusieurs expériences, nous pouvons également créer une correspondance entre les exécutions au fur et à mesure que nous progressons dans l'expérience.
Ce sont tous de bons exemples de l’utilisation créative des capacités de communication bidirectionnelles de PaSER.
Enfin, où se situent l’IP2 et les autres plates-formes de Bruker dans l’industrie plus large des données et des connaissances?
Nous disposons désormais d'une large gamme d'outils qui nous permettent de cataloguer et d'identifier les données de spectrométrie de masse. L'objectif global, bien sûr, est d'identifier les choses qui mènent à des découvertes biologiques.
Dans cet esprit, nos applications sont liées à des outils d'analyse de données comme Reactome, dont beaucoup sont librement accessibles via Internet. Il existe des outils disponibles qui peuvent explorer la sortie de Gene Ontology, par exemple en sélectionnant les vingt catégories les plus significatives, tout en conservant les informations sur toutes les catégories dans le fichier brut généré afin qu'il puisse être examiné plus avant sans avoir à le réanalyser.
Mathieu Lavallée-Adam et son équipe ont développé pour nous un outil interne appelé PSEA-Quant, conçu pour l'analyse d'enrichissement des ensembles protéiques. Cet outil était basé sur d'autres développés pour l'analyse d'enrichissement de l'ensemble de gènes, mais ceux-ci ont été optimisés pour les données de quantification des protéines sans marqueur et basées sur des marqueurs.
Dans l'ensemble, la compatibilité entre les plateformes et les outils est un axe majeur de notre travail.