Un nouvel algorithme fournit des informations riches et détaillées sur l'emplacement et la fonction des protéines dans une cellule

Les humains sont doués pour regarder des images et trouver des modèles ou faire des comparaisons. Regardez une collection de photos de chiens, par exemple, et vous pouvez les trier par couleur, par taille d’oreille, par forme de visage, etc. Mais pourriez-vous les comparer quantitativement ? Et peut-être plus intrigant, une machine pourrait-elle extraire des informations significatives à partir d’images que les humains ne peuvent pas ?

Maintenant, une équipe de scientifiques de Chan Zuckerberg Biohub a développé une méthode d’apprentissage automatique pour analyser et comparer quantitativement des images – dans ce cas des images de microscopie de protéines – sans aucune connaissance préalable. Comme rapporté dans Méthodes naturelles, leur algorithme, surnommé « cytoself », fournit des informations riches et détaillées sur l’emplacement et la fonction des protéines dans une cellule. Cette capacité pourrait accélérer le temps de recherche des biologistes cellulaires et éventuellement être utilisée pour accélérer le processus de découverte et de criblage de médicaments.

C’est très excitant – nous appliquons l’IA à un nouveau type de problème et récupérons toujours tout ce que les humains savent, et plus encore. À l’avenir, nous pourrions le faire pour différents types d’images. Cela ouvre beaucoup de possibilités. »

Loïc Royer, co-auteur correspondant de l’étude

Cytoself démontre non seulement la puissance des algorithmes d’apprentissage automatique, mais il a également généré des informations sur les cellules, les éléments constitutifs de base de la vie, et sur les protéines, les éléments constitutifs moléculaires des cellules. Chaque cellule contient environ 10 000 types différents de protéines – certaines travaillant seules, beaucoup travaillant ensemble, effectuant diverses tâches dans diverses parties de la cellule pour les maintenir en bonne santé. « Une cellule est bien plus organisée spatialement que nous ne le pensions auparavant. C’est un résultat biologique important sur la façon dont la cellule humaine est câblée », a déclaré Manuel Leonetti, également co-auteur correspondant de l’étude.

Et comme tous les outils développés chez CZ Biohub, cytoself est open source et accessible à tous. « Nous espérons que cela va inspirer beaucoup de gens à utiliser des algorithmes similaires pour résoudre leurs propres problèmes d’analyse d’images », a déclaré Leonetti.

Peu importe un doctorat, les machines peuvent apprendre par elles-mêmes

Cytoself est un exemple de ce que l’on appelle l’apprentissage auto-supervisé, ce qui signifie que les humains n’enseignent rien à l’algorithme sur les images de protéines, comme c’est le cas dans l’apprentissage supervisé. « Dans l’apprentissage supervisé, vous devez enseigner la machine un par un avec des exemples ; c’est beaucoup de travail et très fastidieux », a déclaré Hirofumi Kobayashi, auteur principal de l’étude. Et si la machine est limitée aux catégories que les humains lui enseignent, elle peut introduire des biais dans le système.

« Manu [Leonetti] Je pensais que l’information était déjà dans les images », a déclaré Kobayashi. « Nous voulions voir ce que la machine pourrait comprendre par elle-même. »

En effet, l’équipe, qui comprenait également Keith Cheveralls, ingénieur logiciel de CZ Biohub, a été surprise par la quantité d’informations que l’algorithme a pu extraire des images.

« Le degré de détail dans la localisation des protéines était bien plus élevé que nous ne l’aurions pensé », a déclaré Leonetti, dont le groupe développe des outils et des technologies pour comprendre l’architecture cellulaire. « La machine transforme chaque image de protéine en un vecteur mathématique. Ainsi, vous pouvez commencer à classer les images qui se ressemblent. Nous avons réalisé qu’en faisant cela, nous pouvions prédire, avec une grande spécificité, les protéines qui fonctionnent ensemble dans la cellule simplement en comparant leurs images. , ce qui était assez surprenant. »

Premier du genre

Bien qu’il y ait eu des travaux antérieurs sur les images de protéines à l’aide de modèles auto-supervisés ou non supervisés, jamais auparavant l’apprentissage auto-supervisé n’a été utilisé avec autant de succès sur un si grand ensemble de données de plus d’un million d’images couvrant plus de 1 300 protéines mesurées à partir de cellules humaines vivantes, a déclaré Kobayashi, un expert en apprentissage automatique et en imagerie à grande vitesse.

Les images étaient un produit d’OpenCell de CZ Biohub, un projet dirigé par Leonetti pour créer une carte complète de la cellule humaine, y compris éventuellement la caractérisation des quelque 20 000 types de protéines qui alimentent nos cellules. Publié plus tôt cette année dans La science étaient les 1 310 premières protéines qu’ils ont caractérisées, y compris des images de chaque protéine (produites à l’aide d’un type d’étiquette fluorescente) et des cartographies de leurs interactions les unes avec les autres.

Cytoself a été la clé de la réussite d’OpenCell (toutes les images sont disponibles sur opencell.czbiohub.org), fournissant des informations très granulaires et quantitatives sur la localisation des protéines.

« La question de savoir quelles sont toutes les façons possibles pour une protéine de se localiser dans une cellule – tous les endroits où elle peut être et toutes les sortes de combinaisons d’endroits – est fondamentale », a déclaré Royer. « Les biologistes ont essayé d’établir tous les endroits possibles, au fil des décennies, et toutes les structures possibles au sein d’une cellule. Mais cela a toujours été fait par des humains qui examinent les données. La question est de savoir dans quelle mesure les limites et les préjugés humains rendu ce processus imparfait ? »

Royer a ajouté : « Comme nous l’avons montré, les machines peuvent le faire mieux que les humains. Elles peuvent trouver des catégories plus fines et voir des distinctions dans les images qui sont extrêmement fines. »

Le prochain objectif de l’équipe pour cytoself est de suivre comment de petits changements dans la localisation des protéines peuvent être utilisés pour reconnaître différents états cellulaires, par exemple, une cellule normale par rapport à une cellule cancéreuse. Cela pourrait être la clé d’une meilleure compréhension de nombreuses maladies et faciliter la découverte de médicaments.

« Le dépistage des drogues est essentiellement un essai et une erreur », a déclaré Kobayashi. « Mais avec cytoself, c’est un grand saut car vous n’aurez pas besoin de faire des expériences une par une avec des milliers de protéines. C’est une méthode peu coûteuse qui pourrait augmenter considérablement la vitesse de recherche. »