Percer les secrets de la similarité cellulaire : comment SCimilarity transforme les données unicellulaires en informations sur les maladies, le développement et la biologie tissulaire.
Moteur de recherche de similarité. Crédit d’image : SCimilarité
Dans une étude récente publiée dans la revue Naturedes chercheurs du Canada et des États-Unis ont développé la similarité monocellulaire (SCimilarity), un cadre permettant des recherches rapides et interprétables de données sur l'acide ribonucléique -seq (sc/snRNA-seq) sur une seule cellule ou un seul noyau. Ce cadre permet la découverte d’états cellulaires similaires dans l’Atlas des cellules humaines.
Sommaire
Arrière-plan
Plus de 100 millions de cellules ont été profilées à l’aide de sc/snRNA-seq dans diverses conditions, offrant ainsi des opportunités sans précédent de relier les états cellulaires à travers le développement, les tissus et les maladies. Cependant, les analyses à grande échelle restent limitées en raison des défis liés à l’harmonisation des ensembles de données, à la définition de représentations partagées et au manque de mesures de similarité robustes ou de méthodes de recherche évolutives.
Les approches actuelles ne parviennent souvent pas à généraliser les ensembles de données et ne peuvent pas interroger efficacement des atlas massifs pour des profils cellulaires similaires. Des recherches supplémentaires sont nécessaires pour développer des modèles fondamentaux permettant des recherches précises, évolutives et interprétables, libérant ainsi tout le potentiel des atlas unicellulaires pour faire progresser la découverte biologique.
À propos de l'étude
scRNA-seq a profilé des millions de cellules individuelles dans divers tissus, affections et maladies, offrant ainsi des opportunités de transformation pour relier les états cellulaires à travers les contextes.
Les comparaisons efficaces entre les ensembles de données restent toutefois limitées en raison des difficultés liées à l’harmonisation de diverses données, à la définition de représentations communes et au développement de mesures précises pour quantifier la similarité cellulaire.
Tout en préservant les informations spécifiques aux ensembles de données, les modèles existants ne parviennent souvent pas à généraliser ou à rechercher efficacement dans de grands atlas des états cellulaires comparables.
L’apprentissage métrique, une technique appliquée avec succès dans des domaines comme le traitement d’images, offre une solution prometteuse. En intégrant des profils cellulaires dans un espace partagé de faible dimension, il devient possible d’identifier des cellules biologiquement similaires dans de vastes ensembles de données. De telles représentations pourraient permettre des recherches de cellules évolutives et interprétables dans divers contextes, facilitant ainsi les comparaisons entre ensembles de données et la découverte biologique.
Résultats de l'étude
SCimilarity a démontré la généralisation sur diverses plates-formes de profilage unicellulaire. Bien que formé principalement sur les données 10x Genomics Chromium, il a efficacement intégré et annoté des profils cellulaires provenant de plusieurs plates-formes, notamment des ensembles de données scRNA-seq et snRNA-seq.
Par exemple, les échantillons de cellules mononucléées du sang périphérique humain (PBMC) profilés sur sept plates-formes présentaient une précision d'annotation multiplateforme cohérente, à l'exception des types de cellules rares comme les cellules dendritiques conventionnelles (cDC) et les cellules dendritiques plasmacytoïdes (pDC).
Bien que des différences mineures dans les distances d'intégration aient été observées, en particulier pour les plates-formes non 10x telles que le mécanisme de commutation à l'extrémité 5' du séquençage du modèle d'ARN (SMART-Seq2), SCimilarity a maintenu des performances élevées, démontrant son adaptabilité à diverses sources de données.
Un avantage clé de SCimilarity est sa capacité à intégrer des ensembles de données sans correction explicite par lots. En quantifiant la confiance dans la représentation pour des cellules individuelles, le modèle identifie les valeurs aberrantes et évalue sa généralisation à de nouvelles données. Par exemple, les annotations de faible confiance étaient associées à des tissus mal représentés dans les données d'entraînement, comme l'estomac et la vessie. Cette capacité a permis la construction d’un atlas couvrant 30 tissus humains et a facilité les comparaisons pan-tissus.
Le modèle a également excellé dans l’annotation des types de cellules grâce à sa mesure de similarité basée sur l’intégration. SCimilarity a annoté les cellules individuelles indépendamment, évitant ainsi le besoin de regroupement et récupérant efficacement les cellules les plus similaires. Il a atteint une précision compétitive avec les méthodes existantes telles que l'ANnotation unicellulaire utilisant l'inférence variationnelle (scANVI) et CellTypist, faisant même correspondre les annotations à grain fin prises en charge par des marqueurs protéiques. Par exemple, SCimilarity a annoté correctement 86,5 % des cellules d’échantillons de reins sains par rapport aux étiquettes fournies par l’auteur, avec des performances comparables à celles des modèles spécifiques aux tissus.
L'interprétabilité de SCimilarity a été validée à l'aide de gradients intégrés, qui ont identifié les contributions génétiques critiques aux annotations de types cellulaires. Ces attributions génétiques correspondent bien aux marqueurs connus des principaux types de cellules, tels que les gènes de surfactant distinguant les cellules alvéolaires pulmonaires de type 2 (AT2). Cela démontre la capacité de SCimilarity à capturer des caractéristiques biologiquement significatives sans connaissance préalable des signatures spécifiques au type de cellule.
Les capacités d'interrogation du modèle ont été testées à l'aide de macrophages associés à la fibrose (FMΦ) et de myofibroblastes dans la maladie pulmonaire interstitielle (MPI). SCimilarity a identifié des cellules de type FMΦ dans des ensembles de données ILD, des cancers et d'autres maladies fibrotiques, révélant ainsi des états cellulaires partagés. Notamment, elle a découvert des FMΦ dans des contextes rares, tels que l'adénocarcinome canalaire pancréatique (PDAC), suggérant leur pertinence plus large dans la fibrose.
Pour explorer davantage son utilité, SCimilarity a recherché des cellules de type FMΦ in vitro. Étonnamment, il a identifié les cellules cultivées dans un système d’hydrogel 3D comme étant similaires sur le plan transcriptionnel aux FMΦ. La validation expérimentale a confirmé la prédiction de SCimilarity, démontrant son potentiel à identifier de nouvelles conditions expérimentales et à modéliser in vitro des états cellulaires pertinents pour la maladie.
Conclusions
Pour résumer, SCimilarity fait progresser l’analyse unicellulaire en permettant des recherches évolutives et efficaces dans divers ensembles de données scRNA-seq et snRNA-seq.
Construit sur l'apprentissage métrique, il permet l'annotation et l'interrogation des profils cellulaires, exploitant les profils d'expression complets pour réduire les biais liés aux signatures génétiques sélectionnées. SCimilarity excelle dans l’identification de cellules transcriptionnellement similaires, facilitant ainsi la découverte de nouveaux états tels que les FMΦ et les myofibroblastes dans toutes les maladies.
Sa capacité à généraliser à des ensembles de données invisibles et sa disponibilité open source en font un outil fondamental pour explorer l'Atlas des cellules humaines, soutenir diverses investigations biologiques et découvrir des informations sur la biologie humaine et les mécanismes des maladies.