La technique du MIT révèle comment les modèles d'IA prédisent les fonctions des protéines

Au cours des dernières années, les modèles qui peuvent prédire la structure ou la fonction des protéines ont été largement utilisés pour une variété d'applications biologiques, telles que l'identification des cibles médicamenteuses et la conception de nouveaux anticorps thérapeutiques.

Ces modèles, qui sont basés sur des modèles de grandes langues (LLM), peuvent faire des prédictions très précises de l'adéquation d'une protéine pour une application donnée. Cependant, il n'y a aucun moyen de déterminer comment ces modèles font leurs prédictions ou quelles caractéristiques protéiques jouent le rôle le plus important dans ces décisions.

Dans une nouvelle étude, les chercheurs du MIT ont utilisé une nouvelle technique pour ouvrir cette « boîte noire » et leur permettre de déterminer les caractéristiques qu'un modèle de langue protéique prend en compte lors des prédictions. Comprendre ce qui se passe à l'intérieur de cette boîte noire pourrait aider les chercheurs à choisir de meilleurs modèles pour une tâche particulière, aidant à rationaliser le processus d'identification de nouveaux médicaments ou cibles vaccinales.

Notre travail a de grandes implications pour une explicabilité accrue des tâches en aval qui reposent sur ces représentations. De plus, l'identification des fonctionnalités que les modèles de langage protéique suivent ont le potentiel de révéler de nouvelles informations biologiques de ces représentations. «

Bonnie Berger, auteur principal de l'étude et professeur de mathématiques de Simons, Institut de technologie du Massachusetts

Berger est également le chef du groupe de calcul et de biologie dans le laboratoire d'informatique et d'intelligence artificielle du MIT.

Onkar Gujral, un étudiant diplômé du MIT, est l'auteur principal de l'étude, qui apparaît cette semaine dans le Actes de l'Académie nationale des sciences. Mihir Bafna, étudiante diplômée du MIT, et Eric Alm, professeur de génie biologique du MIT, sont également des auteurs de l'article.

Ouvrir la boîte noire

En 2018, Berger et l'ancien étudiant diplômé du MIT Tristan Bepler PhD '20 ont présenté le premier modèle de langue protéique. Leur modèle, comme les modèles de protéines ultérieurs qui a accéléré le développement d'Alphafold, comme ESM2 et Omegafold, était basé sur les LLM. Ces modèles, qui incluent le chatgpt, peuvent analyser d'énormes quantités de texte et déterminer quels mots sont les plus susceptibles d'apparaître ensemble.

Les modèles de langage protéique utilisent une approche similaire, mais au lieu d'analyser les mots, ils analysent les séquences d'acides aminés. Les chercheurs ont utilisé ces modèles pour prédire la structure et la fonction des protéines, et pour des applications telles que l'identification des protéines qui pourraient se lier à des médicaments particuliers.

Dans une étude 2021, Berger et ses collègues ont utilisé un modèle de langue protéique pour prédire quelles sections de protéines de surface virales sont moins susceptibles de muter d'une manière qui permet une évasion virale. Cela leur a permis d'identifier les cibles possibles pour les vaccins contre la grippe, le VIH et le SARS-COV-2.

Cependant, dans toutes ces études, il a été impossible de savoir comment les modèles faisaient leurs prédictions.

« Nous ferions des prédictions à la fin, mais nous n'avions absolument aucune idée de ce qui se passait dans les composants individuels de cette boîte noire », a déclaré Berger.

Dans la nouvelle étude, les chercheurs ont voulu approfondir la façon dont les modèles de langage protéique font leurs prédictions. Tout comme les LLM, les modèles de langage protéique codent les informations comme des représentations qui consistent en un modèle d'activation de différents « nœuds » dans un réseau neuronal. Ces nœuds sont analogues aux réseaux de neurones qui stockent des souvenirs et d'autres informations dans le cerveau.

Le fonctionnement interne des LLM n'est pas facile à interpréter, mais au cours des deux dernières années, les chercheurs ont commencé à utiliser un type d'algorithme connu comme un autoencoder clairsemé pour aider à faire la lumière sur la façon dont ces modèles font leurs prédictions. La nouvelle étude de Berger's Lab est la première à utiliser cet algorithme sur les modèles de langage protéique.

Des autoencodeurs clairsemés fonctionnent en ajustant comment une protéine est représentée dans un réseau neuronal. En règle générale, une protéine donnée sera représentée par un schéma d'activation d'un nombre contraint de neurones, par exemple, 480. Un autoencodeur clairsemé étendra cette représentation en un nombre beaucoup plus important de nœuds, par exemple 20 000.

Lorsque des informations sur une protéine sont codées par seulement 480 neurones, chaque nœud s'allume pour plusieurs caractéristiques, ce qui rend très difficile de savoir quelles fonctionnalités chaque nœud codent. Cependant, lorsque le réseau neuronal est étendu à 20 000 nœuds, cet espace supplémentaire ainsi qu'une contrainte de rareté donne la salle d'information à « étaler ». Maintenant, une caractéristique de la protéine qui était auparavant codée par plusieurs nœuds peut occuper un seul nœud.

« Dans une représentation clairsemée, les neurones éclairant le font de manière plus significative », explique Gujral. « Avant la création des représentations clairsemées, les réseaux comportent des informations si étroitement ensemble qu'il est difficile d'interpréter les neurones. »

Modèles interprétables

Une fois que les chercheurs ont obtenu des représentations clairsemées de nombreuses protéines, ils ont utilisé un assistant d'IA appelé Claude (lié au chatbot anthropique populaire du même nom), pour analyser les représentations. Dans ce cas, ils ont demandé à Claude de comparer les représentations clairsemées avec les caractéristiques connues de chaque protéine, telles que la fonction moléculaire, la famille des protéines ou l'emplacement dans une cellule.

En analysant des milliers de représentations, Claude peut déterminer quels nœuds correspondent à des caractéristiques protéiques spécifiques, puis les décrivent en anglais simple. Par exemple, l'algorithme pourrait dire: « Ce neurone semble détecter les protéines impliquées dans le transport transmembranaire d'ions ou d'acides aminés, en particulier ceux situés dans la membrane plasmique. »

Ce processus rend les nœuds beaucoup plus «interprétables», ce qui signifie que les chercheurs peuvent dire ce que chaque nœud encodait. Ils ont constaté que les caractéristiques les plus susceptibles d'être codées par ces nœuds étaient la famille des protéines et certaines fonctions, y compris plusieurs processus métaboliques et biosynthétiques différents.

« Lorsque vous entraînez un autoencoder clairsemé, vous ne le formez pas à l'interprétation, mais il s'avère qu'en incitant la représentation à être vraiment rare, cela finit par entraîner une interprétabilité », explique Gujral.

Comprendre les caractéristiques d'un modèle protéique particulier encoding pourrait aider les chercheurs à choisir le bon modèle pour une tâche particulière, ou à modifier le type d'entrée qu'ils donnent au modèle, pour générer les meilleurs résultats. De plus, l'analyse des caractéristiques qu'un modèle encode pourrait un jour aider les biologistes à en savoir plus sur les protéines qu'ils étudient.

« À un moment donné, lorsque les modèles deviennent beaucoup plus puissants, vous pourriez apprendre plus de biologie que vous ne le savez déjà, en ouvrant les modèles », explique Gujral.