8+|加权基因共表达网络分析揭示的胆管癌转录图谱
生信干货
来搞科研呀 ·2020年11月13日 03:53
古德猫宁,新的一天又开始了~~各位小伙伴们在努力工作之余,也要记得劳逸结合吆,现在就跟小编一起来看一下今天的这篇文章,放松一下下吧(emmm...说这话的时候我的良心一点都不会痛呢,哈哈哈哈)!好啦,言归正传!今天的这篇文章呢,是发表在Briefings in Bioinformatics(IF=8.99)杂志上的。文章研究的疾病是胆管癌(CCA),CCA是一种高度侵袭性的癌症,根据肿瘤的分化等级分为四类:高分化(G1)、中分化(G2)、低分化(G3)和未分化(G4)。本文作者根据36例胆管癌(CCA)患者的基因表达谱和临床数据,用加权基因共表达网络分析(WGCNA)研究了差异表达基因和临床特征间的关系。
首先,作者从TCGA下载了36名CCA患者的mRNA表达数据(level 3)和相应的临床信息,包括36例CCA肿瘤样本和9例癌旁正常样本。此外,研究还从PUMCH医院收集了11组CCA和正常肝组织配对的样本,然后分离出RNA做了qRT-PCR分析,还做了Western blot蛋白印记分析。(1)对基因表达数据,用R包DESeq识别差异表达基因(DEGs),对p值做了FDR校正,满足|log2FC|>1 且FDR<0.01的定义为degs。此外,通过主成分分析(pca),根据基因表达数据对样本进行聚类。(2)使用R包WGCNA构造了DEGs的共表达网络,具体过程文章有详述,小编就不做赘述了。(3)用两种方法识别临床相关的关键模块,第一种方法计算了每个模块的特征基因(MEs,第一主成分,通过WGCNA获得)与每个临床特征的Pearson相关系数;第二种方法中计算了每个基因的表达水平与每个临床性状之间的Pearson相关系数(记为GS),然后对模块内所有基因的GS取平均绝对值,值越大,相关性越强。(4)使用WGCNA包中的networkScreening函数,基于GS(表示基因与给定临床性状之间的相关性)和MM(表示基因与给定模块之间的相关性)值筛选hub基因,q-weighted < 0.001。(5)用R包clusterProfiler对hub基因分别做GO和KEGG富集分析,阈值分别为P<0.0001和p<0.05。(6)用R包survival绘制K-M生存曲线,识别预后相关的hub基因,P<0.05。(7)最后,用ROC曲线对hub基因进行了验证,AUC>0.7的基因被认为可以不同分级的肿瘤样本有效区分。此外,数据集GSE26566和数据库The Human Protein Atlas被用来验证hub基因的mRNA和蛋白表达水平。作者共识别出了1478个DEGs,473个上调,1005个下调基因。由图1.A的热图可看出肿瘤和正常样本分属于不同的组,PCA的结果也表明它们的聚类是明显区分开的。接下来,在构建差异基因的共表达网络时,加权系数β取值6,根据基因连接度的分布情况可知,此时的网络满足无标度特征。β确定后,得到了1478个DEGS的dissTOM(图2.A),并对其聚类得到了图2.B中的分层聚类树。然后,用动态树切割方法将每个模块的最小基因数定义为30个,并通过中级分类识别关键簇,未被划分的基因根据相关性被分配到不同的簇中,最终得到了8个模块。接下来,计算了所有模块之间的MEs之间的Pearson相关系数和平均距离,基于平均距离对8个模块了聚类分析。合并相关系数大于0.75的模块后,共得到7个模块,图2.C展示除灰色模块外的MEs。
图2. CCA样本的网络热图
作者计算了所有模块的MEs与临床信息之间的Pearson相关系数,以识别临床相关的模块(图3.A)。结果表明,绿色和蓝色模块与肿瘤分化显著正相关(图4.A)。

图3. 模块与临床特征的关系
作者又通过计算每个模块肿瘤分化基因的平均绝对GS值,对这些模块进行了筛选,结果与之前一致,绿色和蓝色模块的得分更高(图4.B)。
因此,作者计算了这两个模块中每个基因的MM值,以识别hub基因。一个基因的MM值越高,与肿瘤分化的关系越大。研究用networkScreening函数基于GS和MM值识别出了78个hub基因,其中有15个属于绿色模块,63个在蓝色模块。
作者用R包clusterProfiler对这78个肿瘤分化相关的hub基因做了GO和KEGG通路的富集分析,富集结果如图6所示。
为了分析hub基因与总生存期的关系,作者又对这78个基因绘制了Kaplan–Meier生存曲线,图7展示了前9个基因的曲线,共识别出了17个与生存期显著相关的基因。其中,基因C2和DDT的表达水平与生存时间的延长正相关,其他15个则是负相关。
转录因子(TF)可基因的表达水平有重要调控作用,研究通过CistromeCancer数据库发现78个hub基因中,有3个是TFs:FOXM1, EZH2和TAT(图8.A)。在TCGA数据集中,FOXM1是与肿瘤组织学分级最显著相关的基因。并且,在GSE26566和The Human Protein Atlas database这两个验证集中,FOXM1在CCA样本中的mRNA和蛋白表达水平均显著高于正常样本(图8B-D)。线性回归分析的结果表明,FOXM1的表达与肿瘤组织学分级密切相关;Wilcox检验表明FOXM1的表达可显著区分高分化CCA和低分化CCA(图8E-G)。在与肿瘤分化相关的前10个hub基因中,FOXM1、PRC1、CDK1、EZH2和BIRC5与CCA发生发展的关系已经得到证实。因此,作者选择了其中剩余的两个基因KIFC1和CCNB,以及其他三个DEGs:ISM1、SULT1B1和AURKB,来验证PUCMH CCA数据集中mRNA和蛋白的表达。对11组CCA和正常组织配对样本的qRT-PCR和Western印迹实验表明,基因ISM1和SULT1B1在CCA中的表达明显低于正常样本,而KIFC1,AURKB和CCNB1正好相反(图9),这些发现与TCGA数据集一致。总结一下,这篇文章的作者基于TCGA CCA数据集通过WGCNA方法识别出了7个与临床病理相关的基因共表达模块,其中两个与肿瘤分化显著相关。此外,还挖掘出了5个新的CCA靶点:ISM1,SULT1B1,KIFC1,AURKB和CCNB1,后面就是一系列的验证分析了。好啦,今天的文章就跟大家分享到这了,have a nice day!生信人提供
新颖、正规、可复现的
数据分析服务
