Avec MassiveFold, les scientifiques ont libéré tout le potentiel d'AlphaFold, rendant les prévisions protéiques de haute confiance plus rapides et plus accessibles, alimentant ainsi des percées en biologie et en découverte de médicaments.
Brève communication : MassiveFold : dévoiler le potentiel caché d'AlphaFold avec un échantillonnage massif optimisé et parallélisé. Crédit d’image : Shutterstock IA
Dans une étude récente publiée dans la revue Science informatique de la naturedes chercheurs français ont développé MassiveFold, une version améliorée d'AlphaFold spécialement conçue pour le traitement parallèle. Ils visaient à réduire le temps de prédiction des structures protéiques de quelques mois à quelques heures. Ils ont découvert que MassiveFold améliorait efficacement la modélisation structurelle des protéines et des assemblages de protéines tout en réduisant les coûts de calcul, en augmentant la qualité des prédictions et en étant évolutif sur diverses configurations matérielles.
Sommaire
Arrière-plan
AlphaFold et la base de données AlphaFold Protein Structure ont transformé l'accès aux prédictions de la structure des protéines, permettant la modélisation à la fois de chaînes simples et d'assemblages protéiques complexes. Cependant, malgré les avantages de l’échantillonnage étendu avec AlphaFold, cela reste exigeant en termes de calcul et prend du temps.
Il a été démontré qu’un échantillonnage massif révèle une diversité structurelle et une variabilité conformationnelle dans les monomères et les complexes protéiques, y compris des assemblages complexes tels que les complexes de nanocorps et les interactions antigène-anticorps. Mais cet échantillonnage élevé, tout en améliorant la précision des prédictions, s'accompagne de défis majeurs en termes de demande de GPU et de longs temps de traitement.
Plus précisément, les exigences élevées en matière d'unité de traitement graphique (GPU) d'AlphaFold et son incapacité à fonctionner en parallèle créent des limitations pratiques. Les exécutions standard d'AlphaFold-Multimer, en particulier pour les grands assemblages, dépassent souvent les temps de cluster GPU fixés par les infrastructures informatiques, ce qui entrave la réalisation de prédictions complexes. Cela rend difficile la réalisation de tout le potentiel d'AlphaFold dans le cadre des contraintes de ressources GPU existantes, ce qui motive le développement de solutions plus efficaces pour les prédictions structurelles à chaîne unique et complexes.
Pour relever ces défis, les chercheurs de la présente étude ont développé MassiveFold, une version parallélisée et personnalisable d'AlphaFold qui répartit les tâches informatiques entre les processeurs et les GPU pour accélérer la prédiction des structures protéiques.
À propos de l'étude
La version 1.2.5 de MassiveFold, développée en Bash et Python 3, combinait les capacités de prédiction de structure d'AlphaFold avec un échantillonnage amélioré via AFmassive ou ColabFold et une parallélisation optimisée entre les unités centrales de traitement (CPU) et les GPU. Conçu pour la flexibilité, il permet aux utilisateurs d'ajuster des paramètres tels que les taux d'abandon, l'utilisation des modèles et les étapes de recyclage spécifiés dans un fichier JavaScript Object Notation (JSON) pour augmenter la diversité structurelle. Le gestionnaire de charge de travail SLURM équilibre efficacement les ressources en ajustant la taille des lots pour garantir que les tâches sont terminées dans les délais impartis.
Le processus comprenait les étapes suivantes : (1) génération d'alignement sur les cœurs de processeur (à l'aide de JackHMMer, HHblits ou MMseqs2), (2) inférence de structure par lots sur les GPU et (3) une phase finale de post-traitement pour classer les prédictions et générer des parcelles. Une fonctionnalité qui permet de gagner du temps est que les alignements précalculés peuvent également être réutilisés. Un script a compilé les résultats de plusieurs exécutions pour consolider les classements, comme cela a été fait dans l'étude CASP16 (Critical Assessment of Structure Prediction 16), dans laquelle MassiveFold a généré et classé jusqu'à 8 040 prédictions par cible.
Résultats et discussion
Il a été constaté que MassiveFold augmentait efficacement la diversité et la confiance des prédictions structurelles des protéines en ajustant les paramètres d'échantillonnage, le recyclage et l'abandon, produisant ainsi des structures de haute confiance pour des cibles protéiques complexes. Par exemple, dans la cible CASP15 H1140, MassiveFold pourrait générer plusieurs structures diverses avec des scores de confiance élevés en étendant l'échantillonnage et en utilisant l'abandon sans modèles.
De plus, le recours au recyclage étendu a amélioré la diversité structurelle, une approche validée avec divers objectifs CASP.
Les tests comparant MassiveFold à AlphaFold3 sur les cibles CASP15 ont montré que l'approche d'échantillonnage massif de MassiveFold produisait de bons modèles pour sept cibles sur huit, tandis qu'AlphaFold3 surpassait légèrement MassiveFold dans seulement trois des huit cibles. L'intégration d'AlphaFold3 dans MassiveFold est prévue pour améliorer davantage les modèles de prédiction anticorps-antigène, combinant potentiellement les avantages uniques des deux outils.
Conclusion
En conclusion, MassiveFold démontre qu’il est possible de surmonter les limitations informatiques de l’AlphaFold standard, en particulier pour les assemblages de protéines volumineux et complexes. MassiveFold a optimisé l'utilisation de clusters GPU pour les prédictions de structure protéique à grande échelle, en équilibrant les ressources GPU et CPU pour gérer efficacement l'échantillonnage massif.
Cette conception a non seulement amélioré la diversité structurelle et réduit le temps de calcul, mais a également permis une flexibilité pour les grandes configurations multi-GPU et les environnements mono-GPU. Les capacités de MassiveFold le rendent bien adapté à une exploration approfondie du paysage de prédiction de la structure des protéines AlphaFold, promettant des applications significatives dans la recherche et la découverte de médicaments.