WGCNA分析应用(一):发育调控
此次讲解应用的文章信息如下:
Title:A novel microglial subset plays a key role in myelinogenesis in developing brain
Published Date:28 September 2017
Published Journal :The EMBO Journal(2017 IF: 10.557)
第一作者:Agnieszka Wlodarczyk,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark(南丹麦大学), Odense, Denmark(丹麦)
数据情况如下:GSE78809(17个样本)
8个新生儿Neonates:4个CD11C+和4个CD11C-
6个EAE(experimental autoimmune encephalomyelitis):3个CD11C+和3个CD11C-
3个成年组adult:3个CD11C-
解读:主要有17个样本,每一个类别都有大于三个以上的生物学重复,有与大脑发育相关的新生儿组别和成年组别。
3.结果解读
WGCNA was applied to the count per million (CPM) expression data.
2.图A:样本关系聚类图,这里看到三个组成年组,新生儿组以及EAE组都分开了,并且组内的CD11c+和CD11c-也可以区分开。
疑问点:有意思的是作者用来做样本聚类的数值,我在文章找了老久没有看到图中横纵坐标的值是怎么算的,有知道的可以下方留言讨论哈。一般来说,对样本进行聚类可以做层次聚类和PCA分析,WGCNA常见的是层次聚类树。
3.图B:模块聚类树,图的上部分是对基因进行的聚类树,下面是根据相似性聚成的模块,文章中总共得到了7个模块,我们可以在图E中看到是那几个模块以及每个模块涉及到的功能。
4.图E:每个模块的基因数以及各个模块的功能,灰色模块是没有聚类到任何模块的基因集合。
5.图C:表型和模块相关性图,这里可以看出哪些模块和你关注的表型之间的关系是否显著
这张图需要用到一个很重要的表型数据,这里可以看到作者是如何将分类变量数值化的,文章中是这样描述的:
Six binary variables were generated that were used to calculate the module trait relationships in which all groups were set to zero with the exception of particular groups of interest:
control(1’s for microglia obtained from healthy control brain) CD11c (1’s for both EAE CD11c and neonatal CD11c), EAE (1’s for CD11c negative and microglia obtained from EAE brains), neonatal (1’s for CD11c negative and microglia obtained from neonatal brains), CD11c EAE, and CD11c neonatal.
翻译为表格就是:
这里的负相关算相关么?我看到的大多数文章都是对正相关的结果进行的分析
具体的模块与表型以及联合模块功能的解读这里就不详细说了,文章中描述非常详细,如何将所挖掘到的模块与发育联系起来。
4.总结
这篇文章IF在10以上,虽然发表时间比较早了,但是还是值得仔细读一下的。特别是对结果层面的生物学意义的解读,很多文章最终结果都只是空泛的说挖掘出了一个biomarker就完了,空洞又无趣。 作为技术层面的细节,这篇文章里可以看到用于WGCNA分析的目的,样本数,组内重复样本数,用来分析的基因,用基因的什么值,表型数据如何数值化以及对结果如何进行解读和下游分析。
欢迎留言讨论,下期见~