Une équipe internationale de scientifiques a développé des modèles informatiques pour ré-analyser et valider les structures macromoléculaires disponibles au public et dérivées expérimentalement du coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2). Ils ont créé un site Web pour déposer des modèles structurels qu'ils ont améliorés par évaluation automatique et manuelle. L'étude est actuellement disponible sur le bioRxiv* serveur de pré-impression.
SARS-CoV-2 affiche des protéines de pointe (vertes) sur sa surface qui reconnaissent et se lient aux cellules hôtes; sa membrane bicouche lipidique contient également des protéines de membrane et d'enveloppe intégrées supplémentaires (jaune et beige). L'ARN simple brin (orange) est entrelacé en hélice avec la nucléocapside (gris). Cette figure ne montre cependant que la forme de transport du virus: une fois qu'une cellule est infectée, des protéines virales supplémentaires codées par l'ARN viral sont produites qui détournent la cellule hôte afin de produire de nouvelles particules virales. (Photo: Thomas Splettstößer /scistyle.com)
Le SRAS-CoV-2, l'agent pathogène causal de la maladie à coronavirus 2019 (COVID-19), est un virus à ARN simple brin de sens positif avec une taille de génome de 30 kb. Le génome du SRAS-CoV-2 code pour un total de 28 protéines essentielles pour la transmissibilité virale, la réplication, la survie et l'évasion immunitaire de l'hôte. Par conséquent, la caractérisation structurelle et fonctionnelle de ces protéines est de première importance pour bien comprendre le cycle de vie viral et identifier des cibles thérapeutiques potentielles.
A. Chaîne A de doigt de zinc de l'entrée PDB 6W9C telle que déposée, avec Cys189 et Cys226 formant une liaison disulfure au lieu d'un site de liaison Zn. B. Structure remodélisée avec un site de liaison au zinc, utilisant un NCS triple, des connaissances préalables sur la chimie de coordination et des poids géométriques accrus pour améliorer la carte. La densité électronique est affichée sous la forme d'une isosurface contournée à 1σ.
Depuis l'émergence de la pandémie COVID-19, un nombre considérable d'études ont été entreprises pour développer les structures atomiques de ces protéines virales en utilisant la résonance magnétique nucléaire, la cryo-microscopie électronique et les techniques cristallographiques. Les scientifiques mettent ces structures gratuitement et publiquement à la disposition de la World Wide Protein Data Bank (wwPDB) pour bénéficier des recherches à venir liées à la pandémie de COVID-19. Au cours des 6 derniers mois, un total de 367 structures macromoléculaires couvrant 16 protéines de SARS-CoV-2 ont été déposées. En raison de l'immense pression de la recherche rapide, des erreurs se produisent fréquemment même dans des structures macromoléculaires très soigneusement dérivées. Comme ces structures sont utilisées pour évaluer des fonctions virales importantes, même une petite erreur peut avoir de graves conséquences. Par conséquent, une validation précise des structures accessibles au public est une exigence absolue pour lutter avec succès contre le SRAS-CoV-2.
Changement de registre à l'extrémité C-terminale de l'ARN polymérase. Gauche: Vue d'ensemble avec une boucle manquante représentée en pointillés (entrée PDB 7BV2); carte à 2,4σ. Droite: Détails de l'hélice C-terminale à 5σ. A. Carte de résolution inférieure et modèle PDB 6NUS. Il est difficile de juger de l'ajustement de la chaîne latérale. B. Carte à plus haute résolution et modèle 7BV2 tel que déposé; l'ajustement de la chaîne latérale est sous-optimal. C. Structure 7BV2 modifiée; les chaînes latérales correspondent maintenant à la densité. Le décalage de registre est indiqué par Tyr915.
Conception de l'étude actuelle
Les scientifiques ont développé des méthodes de calcul pour ré-analyser et valider les structures macromoléculaires accessibles au public du SRAS-CoV-2. Toutes les structures représentatives ont subi une post-analyse automatique et un retraitement et une re-modélisation manuels. Le site Web (insidecorona.net) qu'ils ont créé contient des modèles macromoléculaires considérablement améliorés de nombreuses protéines du SRAS-CoV-2, qui sont mis gratuitement à la disposition du public et qui ont été largement utilisés par les communautés scientifiques.
Lors de la validation automatique, les structures macromoléculaires liées au SARS-CoV et au SARS-CoV-2 sont téléchargées dans le référentiel et analysées automatiquement dans les 24 heures suivant leur publication. Pour les structures cryo-électroniques microscopiques et cristallographiques, la qualité des données fusionnées déposées est vérifiée dans un premier temps, suivie d'une ré-analyse des structures sur la base de connaissances chimiques antérieures.
Pour les données cristallographiques, ils ont vérifié le jumelage, l'exhaustivité et la qualité globale de la diffraction à l'aide de modèles de calcul. Ils ont observé que 7 des 415 ensembles de données ont une exhaustivité inférieure à 80%. Environ 61 ensembles de données ont montré des anneaux de glace, et 49 structures cristallines ont été trouvées comme résultant de cristaux jumelés.
Ils ont également vérifié comment les modèles atomiques s'ajustaient aux données. Ils ont observé une valeur R significativement élevée (une mesure de qualité) de plus de 35% pour deux structures, qu'ils ont améliorée en utilisant PDB-REDO, une procédure pour optimiser les modèles cristallographiques.
Après avoir analysé les structures microscopiques cryoélectroniques, ils ont observé que 6 des 81 structures déposées avaient un mauvais ajustement global entre le modèle et la carte. Pour 12 structures, un mauvais ajustement de plus de 5% des résidus avec la carte a été observé.
Pour valider les structures sur la base de connaissances chimiques antérieures, ils ont vérifié la géométrie covalente, les paramètres conformationnels des protéines et de l'ARN et les conflits stériques. Ils ont observé que pour de nombreuses structures, les conformations du squelette étaient incorrectes.
Pour une évaluation manuelle, ils ont sélectionné des structures représentatives et ont constaté que les erreurs les plus courantes étaient les retournements de liaison peptidique, les valeurs aberrantes du rotamère et la mauvaise identification des petites molécules. Sur toutes les structures contrôlées manuellement, 31 ont été considérablement améliorées et mises à disposition gratuitement sur le site Web.
Importance de l'étude
Selon les scientifiques, le problème majeur avec wwPDB est l'indisponibilité des données brutes, qui sont essentielles pour la ré-analyse et la validation des modèles existants et le développement de nouveaux modèles. Pour maximiser l'utilité des résultats expérimentaux, les scientifiques de l'étude actuelle ont invité d'autres scientifiques à déposer leurs données brutes afin qu'une plate-forme analytique puisse être créée pour la ré-analyse et la validation des modèles structuraux viraux.
En validant et en actualisant continuellement les structures virales, les scientifiques visent à améliorer constamment les résultats des nouvelles recherches.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas examinés par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, orienter la pratique clinique / les comportements liés à la santé, ou traités comme des informations établies.
Référence du journal:
- Tristan Croll, Kay Diederichs, Florens Fischer, Cameron Fyfe, Yunyun Gao, Sam Horrell, Agnel Praveen Joseph, Luise Kandler, Oliver Kippes, Ferdinand Kirsten, Konstantin Müller, Kristopher Nolte, Alexander Payne, Matthew G.Reeves, Jane Richardson, Gianluca Santoni , Sabrina Stäb, Dale Tronrud, Christopher Williams, Andrea Thorn, bioRxiv 2020.10.07.307546; doi: https://doi.org/10.1101/2020.10.07.307546, https://www.biorxiv.org/content/10.1101/2020.10.07.307546v1