Hello,大家好,今天小编想和大家分享的是一篇19年10月发表在Oncology上的文章,思路简单,易于模仿,对于生信小白或者生信新人来说是再友好不过了。

这篇文章的主要内容是通过共表达分析识别与膀胱癌进展和预后相关的新的生物标志物。共表达分析是生物信息学中常用的一种分析方法,简单,实用,高效。通过构建mRNA,miRNA,lncRNA之间的共表达分析,可以有效构建共表达网络,挖掘分子功能等。前些日子研究火热的ceRNA网络也是在共表达分析的基础上完成的。所以呢,大家千万不要小瞧了共表达分析,人家虽然简单但是实用啊。本文所用到的就是基因共表达网络分析(Gene Co-expression Network Analysis),基因共表达网络分析指根据基因表达信号值的动态变化,计算基因间的共表达关系,来建立基因转录调控模型,得到基因间的表达调控关系及调控方向,从而寻找一个或多个物种在不同发育阶段,或者不同组织在不同条件或处理下的全部基因表达调控网络模型以及关键基因,从而系统的研究生物体复杂的生命现象。本篇文章的研究目的是筛选能够准确预测膀胱癌(BC)进展和预后的新的生物标志物。首先,筛选在GEO中GSE37815数据集中差异表达的基因(DEGs)。其次,在GSE71576中通过加权基因共表达网络分析(WGCNA),利用DEGs构建共表达网络。并在共表达网络的基础上识别出brown模块,brown模块与BC的组织学分级显著相关(r = 0.85, p = 1e-12)。基于对brown模块的所有基因进行功能注释,文章发现brown模块的基因主要在细胞周期相关通路中显著富集。接着,结合WGCNA, 蛋白质互作网络 (PPI) network和生存分析,筛选出两个真实的hub基因(ANLN, HMMR)。最后,通过在GEO联合数据集(GSE13507, GSE37815, GSE31684, GSE71576),Oncomine, Human Protein Atlas (HPA)和Cancer Genome Atlas (TCGA)等数据集中验证hub基因在BC进展和预后中的预测价值。基因集富集分析(GSEA)显示,真正的hub基因主要富集于膀胱癌和细胞周期通路,在预测BC的预后方面有重要意义。总之,本研究筛选并证实两种可以准确预测BC的进展和预后的biomarker,对于BC患者的分层治疗和机制研究具有重要意义。首先从NCBI数据库的基因表达Omnibus (GEO)数据库下载微阵列数据集GSE13507、GSE31684、GSE37815、GSE71576及相应的临床信息。其中, GSE37815用于筛选差异表达基因(DEGs),GSE71576用于加权共表达网络分析,GSE31684和GSE13507用于验证hub基因在BC进展及预后中的作用。其次,从癌症基因组图谱(TCGA)数据库下载BC三级RNA-seq数据和相应的临床信息。数据集包括408个BC样本和19个正常膀胱样本,用于验证hub基因,进行GSEA、相关分析和生存分析。本文将未进行WGCNA分析的数据作为训练集和内部验证集,将已进行WGCNA研究的队列作为外部验证集。GSE37815数据集包含18个BC和6个正常膀胱样本,因此我们选择它进行DEGs分析。此外, GSE37815和GSE71576作为训练和内部验证数据集, GSE13507、GSE31684和TCGA为外部验证数据集。这些数据集的详细信息如表1所示:

通过R包limma筛选GSE37815中BC与正常膀胱标本之间的DEGs,共筛选出792个DEGs(上调240个,下调552个),(FDR < 0.05,logFC= 1)。基于Pearson相关分析对样本进行聚类,未发现异常值样本(图2A)。通过R包WGCNA构建DEGs的加权共表达网络。首先,我们使用WGCNA包中的功能goodSamplesGenes来检查输入基因(DEGs)和输入样本是存在异常。其次,利用所有基因对的Pearson相关系数构建邻接矩阵。接着,通过pickSoftThreshold函数确定合适的软阈值β,合适的β强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络特征,更具有生物意义。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致,可根据具体问题移除部分样品或查看后面的β值。在本研究中,β= 6。然后,将邻接矩阵转化为拓扑重叠矩阵(TOM),构建加权共表达网络。同时,为了将表达模式相似的基因划分为基因模块,根据基因树状图最小尺寸50,基于TOM的差异测度进行平均连锁层次聚类。最终,我们识别到网络中的四个模块用于后续分析。
为了识别与BC进程相关的基因,我们分析了模块和临床表型之间的关系。与肿瘤grade和stage显著相关的模块对预测BC进展有重要价值。模块特征关系分析表明,组织学分级(r = 0.85, p = 1e-12)和T分期(r = 0.49, p = 9e-04,图2B)与brown模块显著相关。此外,brown模块在组织学分级中具有最高的基因显著性(图2D)。因此,我们选择了brown模块进行进一步的分析。
为了研究brown模块的功能,我们通过DAVID对brown模块中基因进行功能注释分析。KEGG分析显示,brown模块中显著富集细胞周期、FoxO信号通路、紧密连接、肿瘤中的MicroRNAs、p53信号等生物学通路中(图3A)。GO分析显示,brown模块的生物学过程主要与微管运动、“有丝分裂染色体凝聚”、“蛋白激酶活性激活”等相关(图3B);细胞组分主要富集于中体、肌动蛋白复合体、纺锤体微管等(图3C);分子功能主要富集在ATP结合、微管运动活性、蛋白激酶C结合等方面(图3D)(p<0.05)。
为了进一步筛选最重要的hub基因,我们将WGCNA、PPI和生存分析三种方法结合在一起筛选真正的hub基因。首先,从brown模块中筛选出49个高连通度的hub基因(图2E)。其次,将这49个hub基因上传到STRING数据库进行PPI网络分析。在最低交互作用评分> 0.4的阈值下,筛选了10个hub PPI基因(图2C)。最后,我们使用GEPIA数据库对这10个hub基因进行生存分析,对预后有显著影响的hub基因真正的hub基因(ANLN, HMMR)。结果表明,这两个真正的hub基因都可以用于预测BC的总体生存时间和无病生存时间(图4A,D)。同时,外部数据集GSE13507也可以验证真实hub基因的预后价值(图4E,F)。共表达网络中的49个hub基因,10个红点为真正的hub基因brown模块中与组织学分级相关的基因散点图(筛选到49个hub基因)


为了探究这两个Hub基因的功能,分别对这两个Hub基因进行了GSEA分析。GSE37815数据集中两个hub基因的GSEA分析表明,高表达的hub基因样本可以显著富集到膀胱癌、细胞周期和泛素介导的蛋白水解相关等通路。TCGA数据的GSEA分析也可以观察到相似结果。

由于这两个hub基因是由DEGs筛选出来的,我们首先验证这两个基因在癌和癌旁中的表达模式。结果表明,真正的hub基因在BC中表达上调,并且在多个数据集(Oncomine数据集、GSE13507、GSE37815和TCGA数据集)中结果一致。其次,因为真正的中心基因属于brown模块,这一模块组织学分级和病理阶段显著相关。在内部验证数据集(GSE71576)和外部验证数据集(TCGA GSE13507 GSE31684数据集)中,ANLN (图6)和HMMR(图7)在不同组织学分级和病理阶段均表现出表达差异(单因素方差分析或t检验)。ROC曲线结果显示,这两个 hub基因可以很好的区分癌症和癌旁、不同分级、不同分期、NMIBC和MIBC。此外,我们在HPA数据库的组织中也验证了ANLN和HMMR蛋白水平的表达模式,发现BC等级越高,这两个基因的蛋白水平越高。ANLN的表达模式验证。ANLN在GSE71576 (A,B) GSE13507 (C,D) GSE31684 (E,F),TCGA数据库(G,H)中不同stage和grade中表达分析。
HMMR的表达模式验证。HMMR在GSE71576 (A,B) GSE13507 (C,D) GSE31684 (E,F),TCGA数据库(G,H)中不同stage和grade中表达分析。
为了进一步探讨BC中Hub基因的预后价值,我们在TCGA数据集中对这两个基因进行了亚型的生存分析。结果表明,这两个基因在不同的分期和分级中具有显著的预后价值,不仅可以准确预测BC的总体生存率,还可以预测其无进展间隔(PFI)事件(图5)。
ANLN在不同肿瘤分级亚型(A、B)中的OS和PFI分析;ANLN在不同肿瘤分期亚型(C、D)中的OS和PFI分析。HMMR在不同肿瘤分级亚型(E、F)中的OS和PFI分析;HMMR在不同肿瘤分期亚型(G、H)中的OS和PFI分析。
这篇文章的主要内容大概就是这些啦,因为文章思路和流程都比较简单,所以我们就不总结文章流程,直接来提炼下highlight吧。这篇文章比较可取的一个地方在于WGCNA(加权基因共表达网络分析)包的应用,WGCNA包是十多年前发表的,但在十多年后的今天仍然是广受好评,引用量也一直再增加。这个包是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集,并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。相比于只关注差异表达的基因,WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集,并与表型进行显著性关联分析。一是充分利用了信息,二是把数千个基因与表型的关联转换为数个基因集与表型的关联,免去了多重假设检验校正的问题。是非常实用有效的一个R包,大家有空的时候可以学习下哦,备不住哪天就需要了呢。我们下次再见吧!欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史
