Des scientifiques de l’Université de l’Illinois à Urbana-Champaign ont développé des modèles génératifs profonds pour prédire des séquences non découvertes de la protéine de pointe du coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2). Ces séquences hypothétiques pourraient être utiles pour la future préparation à une pandémie. L’étude est actuellement disponible sur le bioRxiv* serveur de préimpression.
Étude : PandoGen : Génération d’instances complètes de futures séquences SARS-CoV2 à l’aide du Deep Learning. Crédit d’image : TimeStopper69 / Shutterstock
Arrière-plan
Des modèles génératifs profonds sont utilisés pour générer des échantillons complets et réalistes de différents objets, tels que des images, des éléments de langage et des codes informatiques. Parmi ces modèles, les grands modèles de langage (LLM) ont récemment acquis une immense popularité en raison de leur capacité à suivre des instructions humaines et à effectuer une programmation compétitive au niveau humain.
Les modèles de langage protéique (PLM) sont basés sur des conceptions LLM et peuvent modéliser des séquences biologiques et générer des échantillons aux propriétés intéressantes.
Dans l’étude actuelle, les scientifiques ont exploré de nouvelles méthodes pour former un PLM afin de générer des échantillons complets, autonomes, réalistes et non encore connus de séquences de pointes du SRAS-CoV-2. En général, les LLM sont formés à l’aide d’un ensemble de données connu pour paramétrer la distribution de probabilité des données ciblées.
Les scientifiques se sont principalement concentrés sur la protéine de pointe du SRAS-CoV-2 en raison de son implication significative dans le processus d’entrée virale et de sa capacité à induire des réponses immunitaires de l’hôte. La protéine de pointe initie l’entrée du SRAS-CoV-2 dans les cellules hôtes en interagissant avec l’enzyme de conversion de l’angiotensine 2 (ACE2) du récepteur membranaire de la cellule hôte.
De nombreuses interventions thérapeutiques et préventives ciblant la protéine de pointe ont été développées pendant la pandémie de maladie à coronavirus 2019 (COVID-19), notamment des anticorps monoclonaux thérapeutiques et des vaccins contre la COVID-19. Ainsi, une connaissance avancée des futures séquences de protéines de pointe serait utile pour développer de nouveaux vaccins spécifiques aux variants et des anticorps monoclonaux.
Observations importantes
Les scientifiques ont développé un modèle génératif profond, PandoGen, et ont formé le modèle à l’aide de séquences de pointes qui ont été déposées dans la base de données GISAID (l’Initiative mondiale sur le partage de toutes les données sur la grippe) le 15 juin 2021 ou avant. La génération du modèle est comparée aux séquences rapportées après cette date.
La validation fonctionnelle du modèle a révélé que PandoGen peut générer des séquences d’échantillons de haute qualité de la protéine de pointe qui sont significativement différentes des séquences d’entraînement. Cela peut être dû au fait que le modèle a des constructions de formation explicites qui l’empêchent de régénérer les séquences de formation et le forcent à générer des séquences d’échantillons avec des différences significatives.
La comparaison des séquences d’échantillons générées par le modèle avec les séquences dérivées de GISAID a révélé que PandoGen est capable de générer une fraction élevée de séquences réelles. Le modèle a également montré sa capacité à générer de nouvelles séquences associées aux cas GISAID.
Importance de l’étude
L’étude décrit le développement d’une nouvelle méthode qui peut former des modèles à génération profonde pour générer des séquences de pointe hypothétiques du SRAS-CoV-2 qui ne sont pas encore découvertes mais qui ont le pouvoir de créer de futures pandémies. Le pipeline de formation utilisé dans l’étude utilise les informations disponibles dans GISAID et ne nécessite aucune expérience de laboratoire supplémentaire pour la caractérisation des séquences.
La comparaison du nouveau modèle PandoGen avec un modèle standard révèle que le nouveau modèle est plus efficace que le modèle standard pour générer une fraction élevée de séquences réelles, saillantes et nouvelles. Plus précisément, le nouveau modèle surpasse la norme de 4 fois pour le nombre de nouvelles séquences et de près de 10 fois pour le nombre de cas du corpus généré. De plus, l’étude révèle qu’environ 70% des séquences de rang supérieur générées par le modèle sont découvertes à l’avenir.
Comme mentionné par les scientifiques, le modèle d’étude peut être utilisé comme une plate-forme prometteuse pour générer des séquences de pointe hypothétiques du SRAS-CoV-2 à l’aide de ressources accessibles au public. De plus, les informations obtenues à partir du modèle pourraient être utiles pour se préparer à l’avance à de futures situations de pandémie.
usechatgpt init succès