Dans une récente étude publiée sur bioRxiv* serveur de pré-impression, les chercheurs ont identifié plusieurs nouveaux épitopes du coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) affichés sur les molécules d’antigènes leucocytaires humains de classe I (HLA-I).
La reconnaissance de ces épitopes par le cluster de différenciation 8 (CD8)+ Les récepteurs des lymphocytes T (TCR) sont essentiels pour éliminer les infections pathogènes et préparer une réponse à l’immunothérapie anticancéreuse.
Étude : Les prédictions d’immunogénicité révèlent de puissants épitopes des lymphocytes T CD8+ du SRAS-CoV-2. Crédit d’image : ampoule à fusible/Shutterstock
Sommaire
Arrière-plan
Les épitopes ou peptides présentés sur les molécules HLA-I ont plusieurs applications cliniques. Ainsi, une connaissance détaillée de ces épitopes pourrait aider à concevoir des vaccins ciblant des néoépitopes dérivés de mutations génétiques non synonymes pour l’immunothérapie du cancer. De plus, ces épitopes pourraient être utilisés pour sélectionner des TCR et les réinjecter chez des patients nécessitant une thérapie par lymphocytes T.
La diversité des allèles HLA et leur présence en grand nombre rendent extrêmement difficile l’identification d’épitopes spécifiques au cancer et aux maladies infectieuses, y compris la maladie à coronavirus 2019 (COVID-19). Par exemple, le nombre d’épitopes potentiels de classe I d’une longueur donnée dans un pathogène est à peu près égal à sa longueur de protéome. Malgré les progrès réalisés dans les méthodes de criblage des candidats épitopes potentiels, l’approche la plus courante consiste à les présélectionner en fonction des prédicteurs du ligand HLA-I.
À propos de l’étude
Dans la présente étude, les chercheurs ont organisé un énorme ensemble de données de ligands HLA-I présentés naturellement et de néo-épitopes de classe I vérifiés expérimentalement. Ils ont intégré ces données à de nouveaux algorithmes pour former et améliorer les prédicteurs de la présentation de l’antigène et de la reconnaissance du TCR utilisés à ce jour. Les chercheurs ont appliqué ces outils aux protéines du SRAS-CoV-2 pour prédire et valider plusieurs épitopes. En outre, ils ont caractérisé ces épitopes pour l’avidité fonctionnelle du TCR, la réactivité croisée et la clonalité.
Les chercheurs ont récupéré des néo-épitopes immunogènes et non immunogènes obtenus à partir de plusieurs études sur les néo-antigènes et complétés par des données sur les néo-épitopes de la base de données des épitopes immuns (IEDB). Ils ont obtenu un total de 596 néo-épitopes vérifiés expérimentalement, avec 10 8-mers, 391 9-mers, 148 10-mers, 47 11-mers et 6084 peptides non immunogènes vérifiés expérimentalement.
Les chercheurs ont examiné 24 études peptidomiques HLA-I pour récupérer 244 échantillons de ligands HLA-I naturellement présentés de longueurs comprises entre huit et 14-mers. Ils ont utilisé le MixMHCp, un algorithme de déconvolution de motifs, pour traiter ces échantillons et identifier les motifs HLA-I partagés entre les échantillons ayant les mêmes allèles. L’ensemble de données final des ligands HLA-I comprenait 258 814 peptides uniques.
L’équipe a calculé les distributions de longueur des peptides pour tous les ligands HLA-I à partir d’échantillons mono- et poly-alléliques séparément. Ils ont formé un prédicteur de présentation d’antigène appelé MixMHCpred v2.2 et un prédicteur d’immunogénicité appelé PRIME2.0. Ils ont comparé MixMHCpred v2.2 à l’aide de deux ensembles de données externes non inclus dans la formation d’un prédicteur de présentation d’antigène. Ils ont utilisé un excès quadruple de peptides sélectionnés au hasard à partir du protéome humain comme négatifs pour calculer les courbes de fonctionnement du récepteur (ROC) et les valeurs prédictives positives (PPV).
La différence de performance des prédicteurs de ligand HLA-I provenait de différences dans la modélisation des spécificités de liaison ou des distributions de longueur des peptides. Par conséquent, les chercheurs ont calculé la distance euclidienne entre les motifs prédits par chaque prédicteur à différents seuils de % de rang et ceux observés expérimentalement dans les données peptidomiques HLA-I.
Il est à noter que l’équipe a exprimé le score final d’un épitope sous forme de % de classement, qui décrit comment la liaison prédite d’un épitope par rapport aux peptides aléatoires du protéome humain.
Résultats de l’étude
Comparé à d’autres prédicteurs, MixMHCpred2.2 a prédit des distances plus faibles pour les motifs de liaison HLA-I, indiquant que la seule différence significative se situait au niveau des distributions de longueur des peptides. Cependant, les motifs prédits avec HLAthena et MixMHCpred2.0.2 n’étaient pas très éloignés de ceux observés dans les données peptidomiques HLA-I.
L’intégration et la conservation des données peptidomiques HLA-I révèlent des motifs de liaison et des distributions de longueurs de peptides pour plus d’une centaine d’allèles. (A) La déconvolution des motifs comprend l’identification des motifs et des contaminants prédits avec MixMHCp, ainsi que l’annotation des motifs en identifiant les motifs partagés entre les échantillons partageant le même allèle. L’exemple montre les motifs déconvolués dans deux échantillons poly-alléliques qui partagent l’allèle HLA-B*37:01 (« donneur1 » et « HCC1143 » dans l’ensemble de données S1), ainsi que le mono-allèle HLA-B*37:01 échantillon. (B) Exemples de motifs de liaison et de distributions de longueurs de peptides obtenus par déconvolution de motifs et utilisés pour former MixMHCpred2.2. (C) Distributions de longueur des peptides pour les allèles observés dans les données peptidomiques HLA-I mono-alléliques et poly-alléliques. Chaque courbe représente la distribution moyenne de la longueur des peptides sur ces allèles. (D) Fraction de contaminants prédits sur différentes longueurs (moyenne sur tous les échantillons).
MixMHCpred2.0.2 surreprésentait les peptides plus longs pour un % de rang élevé tandis que HLAthena sous-représentait les neuf-mères et surreprésentait les huit, 10 et 11-mères sur tous les seuils de % de rang. Les observations divergentes ont indiqué que l’intégration des longueurs de peptides était cruciale pour capturer avec précision la distribution des longueurs des ligands HLA-I naturellement présentés sur différents allèles.
L’analyse des données utilisées pour former PRIME2.0 a confirmé l’importance des résidus aromatiques et hydrophobes, en particulier le tryptophane, dans la région reconnue par le TCR, reflétant sa capacité à s’engager dans des interactions moléculaires stables avec le TCR. Inversement, pour les ligands HLA-I de faible affinité, la présence d’acides aminés favorisant la reconnaissance du TCR et contrebalançant la plus faible stabilité des complexes peptide-HLA-I est devenue importante.
Les modèles de reconnaissance du TCR améliorent les prédictions des néo-épitopes. (A) peptides immunogènes (vert) et non immunogènes (rouge) validés expérimentalement, ainsi que des peptides aléatoires (orange) utilisés pour former PRIME. (B) Architecture du réseau neuronal de PRIME2.0. Le premier nœud d’entrée correspond à la liaison prédite à l’allèle HLA-I (-log(%rank) de MixMHCpred2.2). Les 20 nœuds suivants correspondent aux fréquences d’acides aminés sur les résidus avec un impact minimal sur l’affinité prévue pour l’allèle HLA-I (encadré vert). Ces positions ont été déterminées comme décrit précédemment (Schmidt et al., 2021). Les sept derniers nœuds correspondent à la longueur du peptide (c’est-à-dire 8 à 14, codage à chaud). (C) Analyse comparative de PRIME2.0 basée sur une validation croisée 10 fois, une validation croisée sans allèle et une validation croisée sans étude. Chaque barre montre l’AUC moyenne dans les différents types de validations croisées (voir également la figure S4A). (D) Même validation croisée que dans (C) après avoir exclu les négatifs générés de manière aléatoire dans l’ensemble de test (voir également la figure S4B). (E) Fréquences d’acides aminés normalisées à des positions ayant un impact minimal sur l’affinité prévue pour HLA-I pour les peptides immunogènes par rapport aux peptides non immunogènes utilisés pour former PRIME2.0 dans différentes plages de liaison HLA-I prédite (% rang de MixMHCpred).
Une population monoclonale de lymphocytes T CD8+ expérimentés par un antigène avec un phénotype effecteur ou mémoire a reconnu l’épitope QYIKWPWYIW du SRAS-CoV-2, qui présentait une homologie élevée avec l’épitope QYIKWPWYVW du SRAS-CoV-1 et était conservé à 100 % parmi toutes les variantes du SRAS-CoV-2 . Les résultats suggèrent que les réponses des lymphocytes T CD8 + induites par une infection pathogène antérieure, une vaccination ou une réactivité croisée avec le SRAS-CoV-1 étaient efficaces contre toutes les variantes du SRAS-CoV-2.
Conclusion
Pour résumer, plusieurs outils existants sont précis au niveau des prédictions du ligand HLA-I. Cependant, prédire la reconnaissance du TCR reste difficile en raison de la plus petite taille des données d’entraînement et d’autres facteurs, tels que les co-récepteurs et les cytokines, qui influencent la reconnaissance du TCR. Par conséquent, des efforts soutenus pour développer des données de formation sur l’immunogénicité de haute qualité et de meilleurs cadres d’apprentissage automatique sont nécessaires pour améliorer encore les prédictions d’épitopes de classe I.
*Avis important
bioRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.