大家好呀,今天小编带大家了解一篇11月份发表在AGING-US杂志上的文章,文章作者基于TCGA中的多组学数据,通过一系列生物信息学分析,识别出了5个与胶质母细胞瘤(GBM)预后密切相关的lncRNAs.
Systematic identification of lncRNA-based prognostic biomarkers for glioblastoma
系统识别可作为胶质母细胞瘤预后标志物的lncRNA
GBM是中枢神经系统最常见的恶性肿瘤之一,异常的快速增殖、极强的浸润性及高度异质性是胶质母细胞瘤的典型特征。GBM的标准化治疗方案包括在最大安全范围内进行手术切除、手术后辅助放疗和化疗(常用的是替莫唑胺)。下面来详细看一下文章内容。
数据和方法
数据
文章所用的数据包括167个GBM和5个正常样本的RNA-Seq数据;153个GBM 和2个正常样本的450k甲基化数据,以及288个GBM样本的27k甲基化数据;418个GBM样本的CNV数据(无物种差异);393个GBM样本的单核苷酸突变数据和599例GBM患者的临床随访数据,所有数据都下载自TCGA。
生存分析和聚类分析
作者选取了123个随访时间超过30天的样本,建立了单因素Cox比例风险回归模型(p=0.05),然后用预后相关的编码基因、CNV和甲基化位点进行多组学聚类分析(R包iCluster Plus )。
不同亚型间差异lncRNA和编码基因的分析
首先用R包DEseq2筛选出在不同亚型间差异表达的lncRNAs和编码基因,并对lncRNAs进行GSEA分析;然后用WGCNA共表达算法挖掘出差异lncRNAs和编码基因的共表达模块,对于显著富集lncRNAs的模块再进一步分析其功能。
lncRNA的CNV分析
作者用GISTIC 2.0分析了596例胶质瘤样本中每个基因的拷贝数变异,最终识别出GBM基因组中频繁突变的区域。然后,筛选出至少在三种亚型间差异表达,且CNV比例在每个样本中大于0.1%的lncRNAs,通过单变量生存分析,分析了它们与总生存期的关系(p<0.05);最后,作者又绘制了22个具有显著预后价值的lncRNAs的ROC曲线。
结果
识别生存相关的突变亚型
通过单变量Cox回归分析,共得到1808个蛋白编码基因,8054个CNV区域和4964个CpG位点;通过多组学聚类分析,则获得了3种亚型,每种亚型中的样本数也基本一致。由图1.A可以发现,三种GBM亚型的预后存在显著差异,C2预后最差,而C1最好;三种亚型各自前20个突变频率最高的基因交集情况如图1.B所示(共40个基因),这40个基因在三种亚型间的突变存在显著差异,并且每种亚型中样本间的突变也显著不同(图1.C)。
图1. 三种亚型间的差异
不同亚型间差异lncRNA和编码基因的分析
各亚型差异表达的基因和lncRNAs如图2所示,可以发现,lncRNAs上调的多于下调的,且差异蛋白编码基因的数目要多于lncRNAs。在三种亚型中,C2具有最多的差异lncRNAs和基因。对GBM相关的lncRNAs做GSEA分析后,结果表明差异lncRNAs倾向于聚集在FC值较大的基因集中(图3.B-D),并且三种亚型间的差异lncRNAs有着显著重叠(图3.E)。
图2. 三种GBM亚型的差异lncRNAs
图3. 每种亚型根据FC值排秩后的GSEA图
亚型间差异编码基因和lncRNA的WGCNA分析
首先,通过对样本的聚类筛选出171个样本(图4.A),然后使用Pearson相关系数计算了每个基因与lncRNA之间的距离。作者用WGCNA构建了无标度的共表达网络,ß设为3(图4.B-C),接下来,作者对基因进行层次聚类,共获得23个模块(图4.D)。图4.E表示的是每个模块中,lncRNA和PCG的比(水平轴),最右侧为显著性p值,红色标注的为lncRNAs显著富集的两个模块。对这两个模块的功能分析显示,它们分别富集到不同的通路和GO节点,表明不同的模块可能执行不同的功能。黑色模块为其中关键模块,其富集分析结果(图.5)。
图4. 聚类分析
图5. 关键模块富集分析
lncRNA的CNV分析
图6.A显示了基因组中lncRNAs的拷贝缺失和扩增的分布,图6.B是lncRNAs和拷贝数间的相关性分布,可知总体呈正相关趋势。接下来,作者利用GISTIC算法识别了GSM基因组中频繁变化的区域,识别出了多个具有显著多拷贝或拷贝缺失的lncRNAs区域,其中拷贝缺失多于扩增(图6.C),表明lncRNA拷贝缺失可能与GBM的发生发展有关。
图6. lncRNA的CNV分析
GBM患者基于lncRNA的预后标志物
在与基因的共表达模块中,研究共挖掘出173个差异表达的lncRNAs,有22个lncRNAs在三种亚型间显示出表达差异。根据这22个lncRNAs在每个样本中的表达水平,作者分析了它们的预后分类效能(图7),它们的AUC均值为0.727,对高于均值的13个lncRNAs的多变量生存分析揭示了它们之间的实质性相互作用。
图6. lncRNAs的分类效能
然后,作者采用逐步多元回归分析,筛选出5个独立的预后因子(表1),根据这5个lncRNA组成的多元回归模型计算了每个样本的风险评分: Risk Score=0.01*ENSG00000222041+0.36*ENSG00000248859+0.3*ENSG00000224596+0.09*ENSG00000261801+0.07*ENSG00000263400,基于得分将所有样本分成高风险组和低风险组,由Kaplan-Meier曲线可知高风险组的预后明显低于低风险组(图7.X)。接下来,对样本的功能富集分析,表明了这5个lncRNAs预测的预后风险得分与癌症的发展密切相关。在利用CGGA中的外部数据集进行验证时,其结果与之前保持一致,模型中包含lncRNA(图.8)。
表1. 五个独立预后的CNV相关lncRNAs
图.8 验证集模型lncRNA ROC曲线
总的来说,该文通过对lncRNA的表达及其CNV数据的综合分析,识别了5个与GBM生存相关的预后lncRNAs,lncRNAs和/或CNA的表达都是预测GBM患者生存的有效指标,可能成为GBM预后的潜在生物标志物。
最后,今日一句话:Yesterdays are gone,I have what it takes to hold on.
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史