Dans une récente étude publiée sur Place de la recherche* serveur de préimpression, les chercheurs ont utilisé un modèle basé sur l’apprentissage automatique (ML) pour identifier les CoV non humains (coronavirus) susceptibles de provoquer des infections humaines.
Sommaire
Fond
Les données expérimentales sont considérées comme idéales pour déterminer l’infectivité de l’hôte d’un virus; cependant, toute la gamme d’hôtes des virus est inconnue. Nombreuses in silico Des méthodes ont été utilisées pour estimer les hôtes viraux, une basée sur ML. Les méthodes sans alignement seraient préférables pour les ensembles de données étendus comprenant des séquences virales recombinées ; cependant, ces méthodes ne tiennent pas compte de l’emplacement relatif des résidus de contact dans les séquences.
Des études ont fait état de signaux partagés entre différentes familles virales pour l’estimation de l’hôte ; cependant, des taxons viraux limités ont été inclus, ne tenant pas compte des caractéristiques virologiques distinctives et, par conséquent, empêchant la réalisation d’études mécanistes sur les voies d’expansion de la gamme d’hôtes.
À propos de l’étude
Dans la présente étude, les chercheurs ont étudié l’infectivité des α-CoV et β-CoV chez l’homme en estimant les interactions de liaison entre la protéine CoV S (pointe) et les récepteurs humains (hôte).
Un modèle basé sur ML a été construit avec des séquences de protéines S du coronavirus 2 (SARS-CoV-2) du syndrome respiratoire aigu sévère pour estimer la liaison virale avec les récepteurs de l’hôte. La modélisation des sauts de gramme a été réalisée à l’aide de réseaux de neurones artificiels pour convertir les données en format vectoriel, de sorte que les vecteurs codent les associations entre les séquences protéiques adjacentes. En outre, les vecteurs sont convertis, à l’aide d’un classificateur de régression logistique, en scores de potentiel de liaison humaine (h-BiP) pour les interactions de liaison entre les séquences protéiques et les récepteurs hôtes.
Le modèle incorporait 2 534 séquences α-CoV et β-CoV S distinctes. Des analyses phylogénétiques et MSA (analyses d’alignement de séquences multiples) ont été effectuées. Des simulations de dynamique moléculaire (MD) du S RBD (domaine de liaison au récepteur) ont été préparées pour évaluer la liaison du récepteur virus-hôte. Le modèle a été recyclé pour étudier son application dans la surveillance de l’expansion de la gamme d’hôtes pour les virus apparus avant le SRAS-CoV-2. Les conditions de la maladie pré-coronavirus 2019 (COVID-19) ont été émulées par l’exclusion des séquences du coronavirus 2 du syndrome respiratoire aigu sévère dans l’ensemble de données du modèle recyclé.
Le nouvel ensemble de données (re-formé) comprenait 1 369 CoV, dont 540 montraient une liaison aux récepteurs humains. Les ensembles de données de formation et de test comprenaient le CoV humain (hCoV)-OC43, le hCoV-NL63, le hCoV-HKU1, le CoV du syndrome respiratoire du Moyen-Orient (MERS-CoV), le SARS-CoV-1, le hCoV-229E, d’autres virus associés au MERS, d’autres sarbecovirus, d’autres α-CoV, d’autres β-CoV et le virus de la diarrhée épidémique porcine. Les virus avec des scores h-BiP ≥ 0,5 ont été classés comme susceptibles de montrer une liaison aux récepteurs humains.
Résultats
Le modèle ML a produit des scores h-BiP, basés sur la liaison récepteur protéine-hôte S des virus qui évaluaient précisément le potentiel de liaison des CoV humains. L’équipe a identifié deux organismes viraux, Bat CoV BtCoV/133/2005 (organisme viral associé au MERS) et l’isolat de Rhinolophus affinis CoV LYRa3 (organisme viral associé au SRAS) a montré des scores h-BiP élevés et des caractéristiques de liaison au récepteur de l’hôte jusque-là inconnues.
Les résultats ont indiqué que le virus Bt133 et le virus LyRa3 étaient associés à des organismes viraux non humains avec une liaison connue au récepteur de l’hôte. L’identité de séquence élevée (97,0 %) observée pour le partage de Bt133 S avec Ty-HKU4 S a indiqué que le virus Bt133 se lie au récepteur humain dipeptidyl peptidase 4 (hDPP4). De même, l’identité de séquence de protéine de pointe de 99 % entre le virus LYRa3 et le virus LYRa11 a indiqué que le virus LYRa3 se lie au récepteur de l’enzyme de conversion de l’angiotensine humaine 2 (hACE2).
L’analyse MSA des RBM (motifs de liaison aux récepteurs) du virus Bt133 et du virus LYRa3 avec des organismes viraux associés a indiqué que LYRa3 et Bt133 conservent leurs résidus qui entrent en contact avec les récepteurs de l’hôte. Des simulations MD ont validé les résultats et identifié les résidus en contact avec les récepteurs de l’hôte. Des interactions de liaison ont été observées entre le résidu E518 dans S RBD et le résidu Q344 dans le récepteur hDDP4 et entre le résidu N514 dans S RBD et le résidu R317 dans le récepteur hDDP4 pour Bt133. De plus, le résidu de contact Q515 a été détecté dans > 70,0 % des simulations Bt133. Les résidus de contact pour LYRa3 comprenaient T490, G492, Y485 et G486, détectés dans ≥ 45,0 % des simulations MD.
Au total, 16 virus sans liaison connue à l’hôte ont montré des scores h-BiP ≥ 0,5, indiquant que les virus pourraient se lier aux récepteurs des cellules humaines. Parmi ceux-ci, 14 virus étaient associés au MERS et provenaient de dromadaires d’Afrique. Des études antérieures ont indiqué que les virus associés au MERS-CoV provenant de chameaux en Afrique pourraient provoquer des infections humaines.
Le classificateur de modèle a montré une précision, une sensibilité et une spécificité de 99,5 %, 99,6 % et 98 %, respectivement, et les scores h-BiP étaient bien corrélés avec les résultats d’identité de séquence. Les scores h-BiP distinguaient également les organismes viraux avec des identités de séquence identiques, et le modèle a détecté la liaison au récepteur de l’hôte pour les cas d’identité de séquence à faible pourcentage. Le réapprentissage du modèle a également donné une précision similaire.
Dans l’ensemble, les résultats de l’étude ont montré que l’approche ML basée sur le score h-BiP était une méthode précise pour estimer la capacité de liaison aux récepteurs humains des CoV, soulignant que les modèles ML pourraient être utilisés pour prédire les événements d’expansion de l’hôte.
*Avis important
Research Square publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.