Dans une récente étude publiée sur bioRxiv* serveur de préimpression, les chercheurs ont utilisé des outils d’apprentissage automatique (ML) pour découvrir les coronavirus animaux (CoV), à la fois alpha et bêta CoV, jusqu’alors inconnus pour infecter les humains.
Sommaire
Arrière plan
Il est resté difficile de prédire quels CoV animaux pourraient infecter les humains car toute leur gamme d’hôtes est inconnue. Par exemple, le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) est originaire d’un hôte animal, très probablement des chauves-souris. Après un événement d’expansion de l’hôte, étape essentielle de l’évolution virale, le SRAS-CoV-2 s’est répandu chez l’homme. Ainsi, il est crucial d’enquêter sur tous les CoV alpha et bêta qui infectent les animaux à proximité des humains (par exemple, les animaux de ferme, comme les porcs) qui facilitent leur transmission zoonotique.
Les approches basées sur l’alignement et sans alignement se sont révélées prometteuses pour résoudre le problème de la prédiction de l’hôte viral, mais la première présente une efficacité médiocre à mesure que la longueur des séquences augmente. De même, les méthodes sans alignement ne tiennent pas compte de la position relative des résidus d’acides aminés (AA) dans la séquence.
À propos de l’étude
Dans la présente étude, les chercheurs ont développé un nouveau modèle d’apprentissage automatique pour prédire la liaison entre la protéine de pointe (S) des CoV alpha et bêta et un récepteur humain, tel que la dipeptidyl-peptidase humaine 4 (hDPP4) et l’enzyme de conversion de l’angiotensine 2 (ACE2).
À cette fin, ils ont d’abord téléchargé 28 368 séquences de protéines de pointe (S) de tous les CoV alpha et bêta à partir de la base de données Virus du National Center for Biotechnology Information. Ils ont utilisé un modèle de saut de gramme pour convertir ces données en vecteurs qui codent l’association entre des séquences de protéines de longueur k adjacentes appelées k-mers. Ensuite, un classificateur a utilisé ces vecteurs pour noter chaque séquence protéique en fonction de son potentiel de liaison au récepteur humain, appelé potentiel de liaison humain (h-BiP).
L’ensemble de données final alpha et bêta CoV couvrant tous leurs clades et variantes avait 2 534 séquences AA, sur la base desquelles il y avait 1705 et 829 virus avec des annotations positives et négatives pour la liaison humaine, respectivement. Ainsi, les chercheurs ont divisé ces 2 534 séquences AA en un ensemble d’entraînement (85 %) et un ensemble de test (15 %).
De plus, les chercheurs ont utilisé un sous-ensemble de 424 séquences pour générer un arbre phylogénétique pour la protéine S des CoV alpha et bêta. L’équipe a utilisé des structures de départ de domaine de liaison au récepteur (RBD) de LYRa3 et LYRa11, générées à l’aide d’AlphaFold, pour des simulations de dynamique moléculaire (MD). Le package MD YASARA a aidé à simuler les interactions protéine-protéine en substituant des résidus AA individuels et en recherchant des conformations à énergie minimale sur les structures candidates modifiées finales. L’équipe a également effectué une routine de minimisation d’énergie (EM) pour toutes les structures candidates modifiées jusqu’à ce que l’énergie libre se stabilise à moins de 50 Joules/mol. En raison de la grande précision du classificateur, le score h-BiP était en corrélation avec le pourcentage d’identité de séquence (en %) par rapport aux virus humains. L’équipe a calculé le pourcentage d’identité de séquence par paires entre les sept CoV humains et les séquences de la protéine S dans l’ensemble de données de l’étude pour sélectionner le maximum pour chacun. Notamment, tous les virus ayant une identité ≥ 97 % avec des CoV humains connus auparavant avaient un score h-BiP > 0,5.
Notamment, le score h-BiP a détecté la liaison dans les cas de faible identité de séquence et a fait la distinction entre le potentiel de liaison pour les virus ayant presque la même identité de séquence.
Résultats et conclusion
Les chercheurs ont découvert LYRa326 et Bt13325, deux virus dont les propriétés de liaison à l’homme sont encore inconnues, bien qu’ils aient des scores h-BiP élevés. À l’appui, l’analyse phylogénétique a révélé que ces deux virus étaient apparentés à des CoV non humains connus auparavant pour se lier aux récepteurs humains. Les motifs de liaison au récepteur (RBM) dans le domaine de liaison au récepteur (RBD) de la protéine S entrent en contact direct avec le récepteur de l’hôte. L’alignement de séquences multiples des RBM de Bt133 et LYRa3 avec des virus apparentés a révélé qu’ils conservent des résidus de contact qui interagissent avec le ou les récepteurs humains.
Par exemple, Bt133 avait conservé ses huit résidus de contact utilisés par Tylonycteris bat CoV HKU4 (Ty-HKU4) pour se lier à hDPP4 malgré 13 mutations RBD. De même, LYRa3, phylogénétiquement apparenté au SRAS-CoV Tor2, avait conservé 12 de ses 17 résidus de contact qui se lient à hACE2. De plus, à l’exception du résidu 441, il avait des séquences identiques au RBD. Les simulations MD du RBD ont en outre validé cette liaison et identifié les résidus de contact qui se sont liés aux récepteurs humains.
Enfin, les chercheurs ont testé si ce modèle enquêtait sur les événements d’expansion de l’hôte. Ils ont émulé les conditions avant l’avènement du SARS-CoV-2 en supprimant toutes les séquences de protéines SARS-CoV-2 S de l’ensemble d’entraînement. Ils ont découvert que le modèle ML ré-entraîné prédisait avec succès la liaison entre un récepteur humain et le SARS-CoV-2 S de type sauvage, avec un score h-BiP égal à 0,96. Dans l’ensemble, la méthode basée sur le ML proposée pourrait s’avérer être un outil précieux pour détecter, à partir d’un vaste pool de CoV animaux, quels virus pourraient traverser la barrière des espèces pour infecter les humains.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.