Une équipe de chercheurs de Baidu Research a développé un algorithme d’IA capable de concevoir rapidement des séquences vaccinales d’ARNm COVID-19 hautement stables qui étaient auparavant inaccessibles. L’algorithme, nommé LinearDesign, représente une avancée majeure dans la stabilité et l’efficacité des séquences vaccinales, atteignant une multiplication par 128 de la réponse anticorps du vaccin COVID-19.
Cette recherche peut appliquer la médecine de l’ARNm codant pour une gamme plus large de protéines thérapeutiques, telles que les anticorps monoclonaux et les médicaments anticancéreux, promettant de larges applications et un impact de grande envergure.
Dr He Zhang, ingénieur logiciel chez Baidu Research
Grâce à une collaboration avec l’Oregon State University, StemiRNA Therapeutics et le University of Rochester Medical Center, l’étude « Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity » est parue aujourd’hui dans la revue scientifique Nature via Accelerated Article Preview (AAP). C’est la première fois qu’une entreprise technologique chinoise est créditée comme la première affiliation sur un article publié dans Nature.
L’article révèle comment un problème de biologie complexe peut être abordé en adoptant une approche classique du traitement du langage naturel (TAL), en utilisant une solution élégante et simple qui a été utilisée pour comprendre les mots et la grammaire.
L’ARNm, ou ARN messager, est devenu une technologie révolutionnaire pour le développement de vaccins et de traitements potentiels contre le cancer et d’autres maladies. Servant de messager vital qui transporte les instructions génétiques de l’ADN à la machinerie de fabrication des protéines de la cellule, l’ARNm permet la création de protéines spécifiques pour diverses fonctions dans le corps humain. Avec de nombreux avantages en termes de sécurité, d’efficacité et de production, l’ARNm a été rapidement adopté dans le processus de développement du vaccin COVID-19.
Cependant, l’instabilité naturelle de l’ARNm entraîne une expression insuffisante des protéines qui affaiblit la capacité d’un vaccin à stimuler de fortes réponses immunitaires. Cette instabilité pose également des défis pour le stockage et le transport des vaccins à ARNm, en particulier dans les pays en développement où les ressources sont souvent limitées.
Des recherches antérieures ont montré que l’optimisation de la stabilité de la structure secondaire de l’ARNm, lorsqu’elle est combinée avec des codons optimaux, conduit à une meilleure expression des protéines. Le défi réside dans l’espace de conception de l’ARNm, qui est incroyablement vaste en raison des codons synonymes. Par exemple, il existe environ 10 ^ 632 ARNm qui peuvent être traduits dans la même protéine Spike SARS-CoV-2, ce qui présente des défis insurmontables pour les méthodes antérieures.
Bien que la PNL et la biologie puissent à première vue sembler sans rapport, les deux domaines partagent de solides liens mathématiques. Dans le langage humain, une phrase se compose d’une séquence de mots et d’un arbre syntaxique sous-jacent avec des phrases nominales et verbales, qui ensemble transmettent un sens. De même, un brin d’ARN a une séquence nucléotidique et une structure secondaire associée basée sur son modèle de repliement.
Les chercheurs ont utilisé une technique de traitement du langage appelée analyse en treillis, qui représente les connexions de mots potentielles dans un graphe en treillis et sélectionne l’option la plus plausible en fonction de la grammaire. De même, ils ont créé un graphique qui représente de manière compacte tous les candidats ARNm, en utilisant un automate à états finis déterministe (DFA). En appliquant l’analyse de réseau à l’ARNm, trouver l’ARNm optimal revient à identifier la phrase la plus probable parmi une gamme d’alternatives à consonance similaire.
En utilisant cette approche, LinearDesign ne prend que 11 minutes pour générer la séquence d’ARNm la plus stable qui code pour la protéine Spike.
Dans une comparaison directe, les séquences conçues par LinearDesign ont montré des résultats significativement améliorés par rapport aux séquences vaccinales existantes. Pour les séquences d’ARNm du vaccin COVID-19, l’algorithme a permis d’obtenir une stabilité jusqu’à 5 fois supérieure (demi-vie de l’ARNm), une augmentation de 3 fois des niveaux d’expression des protéines (dans les 48 heures) et une incroyable augmentation de 128 fois de la réponse anticorps. Pour les séquences d’ARNm du vaccin VZV, l’étude a signalé une augmentation jusqu’à 6 fois de la stabilité (demi-vie de la molécule d’ARNm), une augmentation de 5,3 fois des niveaux d’expression des protéines (48 heures) et une augmentation de 8 fois de la réponse des anticorps.
« Les vaccins conçus grâce à notre méthode peuvent offrir une meilleure protection avec le même dosage, et potentiellement fournir une protection égale avec une dose plus faible, entraînant moins d’effets secondaires. Cela réduira considérablement les coûts de recherche et de développement de vaccins pour les sociétés biopharmaceutiques tout en améliorant les résultats, » a ajouté le Dr Zhang. En 2021, Baidu et Sanofi ont entamé un partenariat pour intégrer l’algorithme LinearDesign dans le pipeline de conception de produits de Sanofi pour le développement de vaccins et de médicaments à ARNm.
Baidu a créé une plate-forme de bio-informatique basée sur PaddlePaddle appelée PaddleHelix, qui englobe les grands modèles ERNIE-Bio-Computing. Cette plateforme explore l’application de l’IA dans divers domaines, tels que les petites molécules, les protéines/peptides et l’ARN, offrant un nouveau paradigme de recherche pour l’IA dans les sciences de la vie. ERNIE Big Model de Baidu a développé un système technologique complet de grands modèles, couvrant la PNL, la vision, le cross-modal et la bio-informatique. Le ERNIE Bot, récemment dévoilé, un grand modèle de langage (LLM) capable de comprendre et de générer le langage humain, fait partie de la famille ERNIE Big Model.
À l’avenir, Baidu continuera d’explorer les applications de l’IA dans les sciences de la vie, élargissant la portée et la profondeur de la technologie inclusive et défendant la santé et le bien-être de toute l’humanité.