Une nouvelle méthode statistique fournit un moyen plus efficace de découvrir des changements biologiquement significatifs dans les données génomiques qui couvrent plusieurs conditions – ; tels que les types de cellules ou les tissus.
Les études sur le génome entier produisent d’énormes quantités de données, allant de millions de séquences d’ADN individuelles à des informations sur où et combien de milliers de gènes sont exprimés jusqu’à l’emplacement des éléments fonctionnels dans le génome. En raison de la quantité et de la complexité des données, la comparaison de différentes conditions biologiques ou entre des études réalisées par des laboratoires distincts peut être statistiquement difficile.
La difficulté lorsque vous avez plusieurs conditions est de savoir comment analyser les données ensemble d’une manière qui peut être à la fois puissante sur le plan statistique et efficace sur le plan informatique. Les méthodes existantes sont coûteuses en calcul ou produisent des résultats difficiles à interpréter biologiquement. Nous avons développé une méthode appelée CLIMB qui améliore les méthodes existantes, est efficace sur le plan informatique et produit des résultats biologiquement interprétables. Nous testons la méthode sur trois types de données génomiques collectées à partir de cellules hématopoïétiques – ; liés aux cellules souches sanguines – ; mais la méthode pourrait également être utilisée dans l’analyse d’autres données « omiques ».
Qunhua Li, professeur agrégé de statistiques, Penn State
Les chercheurs décrivent la méthode CLIMB (Composite LIkelihood eMpirical Bayes) dans un article paru en ligne le 12 novembre dans la revue Communication Nature.
« Dans les expériences où il y a tant d’informations mais provenant de relativement peu d’individus, il est utile de pouvoir utiliser les informations aussi efficacement que possible », a déclaré Hillary Koch, étudiante diplômée à Penn State au moment de la recherche et maintenant statisticienne senior. à Moderna. « Il y a des avantages statistiques à pouvoir tout regarder ensemble et même à utiliser les informations d’expériences connexes. CLIMB nous permet de faire exactement cela. »
La méthode CLIMB utilise les principes de deux techniques traditionnelles pour analyser les données dans plusieurs conditions. Une technique utilise une série de comparaisons par paires entre les conditions, mais devient de plus en plus difficile à interpréter à mesure que des conditions supplémentaires sont ajoutées.
Une technique différente combine le modèle d’activité de chaque sujet à travers les conditions dans un « vecteur d’association », par exemple, un gène régulé à la hausse, régulé à la baisse ou sans changement dans chacun des nombreux types de cellules. Le vecteur d’association reflète directement le modèle de spécificité de la condition et est facile à interpréter. Cependant, comme de nombreuses combinaisons différentes sont possibles même lorsqu’il n’y a qu’une poignée de conditions, les calculs sont extrêmement intenses en termes de calcul. Pour surmonter ce défi, cette deuxième approche à elle seule fait des hypothèses sur la façon de simplifier les données qui ne sont pas toujours correctes.
« CLIMB utilise des aspects de ces deux approches », a déclaré Koch. « Nous analysons finalement les vecteurs d’association, mais nous utilisons d’abord des analyses par paires pour identifier les modèles susceptibles d’exister à l’avance. Plutôt que de faire des hypothèses sur les données, nous utilisons les informations par paires pour éliminer les combinaisons que les données ne soutiennent pas fortement. Cela réduit considérablement l’espace des modèles possibles dans des conditions qui, autrement, rendraient les calculs si intensifs. »
Après avoir compilé l’ensemble réduit de vecteurs d’association possibles, la méthode regroupe les sujets qui suivent le même schéma dans toutes les conditions. Par exemple, les résultats pourraient indiquer aux chercheurs des ensembles de gènes qui sont collectivement régulés à la hausse dans certains types de cellules, mais régulés à la baisse dans d’autres.
Les chercheurs ont testé leur méthode sur des données recueillies à partir d’expériences utilisant une technologie appelée RNA-seq, qui peut mesurer la quantité d’ARN fabriquée à partir de tous les gènes exprimés dans une cellule, pour examiner si certains gènes aident à déterminer quels types de cellules la tige hématopoïétique la cellule se transforme finalement en.
« Par rapport à la méthode populaire par paires, nos résultats sont plus spécifiques », a déclaré Li. « Notre liste de gènes est plus succincte et biologiquement plus pertinente. »
Alors que la méthode traditionnelle par paires a identifié six à sept mille gènes d’intérêt, CLIMB a produit une liste beaucoup plus restreinte de deux à trois mille gènes, avec au moins un millier de ces gènes identifiés dans les deux analyses.
« Les différents types de cellules sanguines ont une variété de fonctions – ; certains deviennent des globules rouges et d’autres des cellules immunitaires – ; et nous voulions savoir quels gènes sont les plus susceptibles d’être impliqués dans la détermination de chaque type de cellule distinct », a déclaré Ross Hardison, T. Ming Chu Professeur de biochimie et de biologie moléculaire à Penn State. « L’approche CLIMB a extrait certains gènes importants ; certains d’entre eux que nous connaissions déjà et d’autres s’ajoutent à ce que nous savons. Mais la différence est que ces résultats étaient beaucoup plus spécifiques et beaucoup plus interprétables que ceux des analyses précédentes. »
Les chercheurs ont également utilisé CLIMB sur des données produites à partir d’une technologie expérimentale différente, ChIP-seq, qui peut identifier où le long du génome certaines protéines se lient à l’ADN. Ils ont exploré comment la liaison d’une protéine appelée CTCF – ; un facteur de transcription qui aide à établir les interactions nécessaires à la régulation des gènes dans le noyau cellulaire – ; change ou ne change pas dans 17 populations de cellules qui dérivent toutes de la même cellule souche hématopoïétique. L’analyse CLIMB a identifié des catégories distinctes de sites liés au CTCF, certains qui révèlent des rôles pour ce facteur de transcription dans toutes les cellules sanguines et d’autres montrant des rôles dans des types de cellules spécifiques.
Enfin, l’équipe a exploré les données d’une autre technologie expérimentale, appelée DNase-seq, qui peut identifier les emplacements des régions régulatrices, pour comparer l’accessibilité de la chromatine – ; un complexe d’ADN et de protéines – ; dans 38 types de cellules humaines.
« Pour les trois tests, nous voulions voir si nos résultats avaient une pertinence biologique, nous avons donc comparé nos résultats à des données indépendantes, telles que des études de séquençage à haut débit de modifications d’histones et d’empreintes de facteurs de transcription. » dit Koch. « Dans chaque cas, nos résultats correspondent à ces autres méthodes. Ensuite, nous aimerions améliorer la vitesse de calcul de notre méthode et augmenter le nombre de conditions qu’elle peut gérer. Par exemple, les données d’accessibilité à la chromatine sont disponibles pour de nombreux autres types de cellules. , nous aimerions donc augmenter l’échelle de CLIMB. »
En plus de Li, Koch et Hardison, l’équipe de recherche comprend Cheryl Keller, Guanjue Xiang et Belinda Giardine de Penn State, Feipeng Zhang de l’Université Xi’an Jiaotong en Chine et Yicheng Wang de l’Université de la Colombie-Britannique au Canada. Cette recherche a été soutenue par les National Institutes of Health, y compris l’Institut national des sciences médicales générales, l’Institut national de recherche sur le génome humain et l’Institut national du diabète et des maladies digestives et rénales.