A novel epigenetic signature for overall survival prediction in patients with breast cancer
乳腺癌患者总体生存预测的新表观遗传学特征
大家好,在生信人之前的推送中已经解读过关于乳腺癌预后的文献,今天我将从新的视角来剖析乳腺癌,这是一篇今年11月底新发表在Journal of Translational Medicine(IF:4)上的一篇文章。乳腺癌由于其在预后和治疗反应方面的异质性,具有预测生存率的生物标志物对于该病的个体化治疗至关重要。癌细胞基因组的表观遗传学改变,例如DNA甲基化模式的改变,可能作为这种新型标志物,作用在乳腺癌的发生和发展过程。
数据资源
从UCSC Xena浏览器下载了1248例乳腺癌患者的TCGA DNA甲基化数据集,RNA-seq数据集和临床数据集。从GEO数据库下载了4个独立的乳腺癌验证数据集。
主要方法
(1)差异分析:Limma包用于执行差异表达分析,基于t检验的经验贝叶斯方法被用来评估基因表达的变化;(2)LASSO正则化和特征构建:LASSO是一种广义线性回归模型的L1正则化方法,在模型构建过程中,采用L1范数来限制特征的权重。基于Spearman相关系数去测试DEGs(差异表达基因)和DMGs(差异甲基化基因)中重叠基因的mRNA表达与DNA甲基化水平之间的相关性,并使用肿瘤组织中绝对相关性大于0.3的基因来建立预后模型。作者挑选了13个基因用于构建特征,并通过限制权重过程获得每个基因的系数。建立的风险评分公式如下:
(3)WGCNA用于乳腺肿瘤的转录组:作者通过加权相关网络分析(WGCNA)构建了基因共表达网络。通过评估乳腺癌患者的风险评分与模块成员之间的相关性,挖掘出了高度相关的模块。进一步的GO和KEGG分析分别由R包clusterProfiler和在线资源Metascape执行。
结果展示
肿瘤组织与正常组织DEGs和DMGs的识别
总共识别出306个在DEGs和DMGs中有重叠变化的基因,这些基因形成一个重叠簇(表达上调的基因与甲基化程度低下的基因重叠,表达下调的基因与高甲基化基因重叠)。在这些共同调控的基因中,有95个基因的高DNA甲基化与基因表达水平降低相关(负相关),其基因表达谱如图c所示,该图也结合了基因组特征和相关的临床病理特征。
LASSO Cox回归识别了13个基因的表观遗传特征
95个基因通过上述分析构建了一个基因表达谱,并应用LASSO Cox模型构建了基因表达谱的预后特征,为了防止过度拟合,进行了交叉验证(图d)。LASSO Cox回归的正则化过程确定了13个最重要的特征,作为乳腺癌患者总体生存的最佳预测指标(图e)。这13个基因在基因表达水平和DNA甲基化水平上对肿瘤组织和正常组织的区分均表现出较高的效能。
基于表观遗传特征的总体生存预测
通过这13个基因的表达水平和加权参数建立了表观遗传特征来预测乳腺癌患者的生存率。图b,c显示了13个基因表达的生存状态和热图。
KM曲线显示,与高危组相比,低风险组患者的总体生存率(OS) 和无复发生存率(RFS)明显更高(图a, b)。与时间有关的ROC分析表明,与其他临床病理特征相比,13个基因的表观遗传特征具有更好的OS预测能力(图c)。此外,研究者还分析了来自表观遗传特征的风险评分与ssGSEA(单样本基因集富集分析,由gsva包执行)评分之间的相关性,结果显示癌症相关的标志,如mTOR信号、G2M检查点、MYC靶点与风险评分显著相关(图d)。
WGCNA对乳腺癌患者转录组的影响
为了更好地理解患者临床特征的分子基础,作者将WGCNA应用于RNA-seq数据矩阵。利用RNA-seq数据矩阵中的基因构建基因共表达网络(图a),图b中的heatmap绘制了转录组之间的拓扑矩阵。临床特征(分子亚型、病理阶段、远处转移、淋巴结转移)和每个基因模块的特征值之间的关系如图c所示。选择了与13个基因特征具有最高相关性的蓝色模块进行进一步分析,蓝色模块中的13个基因特征相关系数绝对值大于0.2的基因被定义为中枢基因。下面的散点图说明了13个基因特征和蓝色模块中每个基因的模块成员之间的关系强度(图c)。通过cytoscape分析了蓝色模块中的基因共表达网络(图d),网络中包括多种与细胞周期相关的基因,例如E2F,KIF2C(图e)。这些中枢基因的GO和KEGG分析显示,细胞分裂、细胞周期与13个基因的表观遗传特征密切相关(图f, g)。
乳腺癌组织中13个基因表达和甲基化水平分析
所有13个基因的表达与DNA甲基化水平呈高度相关。
13个基因表观遗传特征的后续分析
亚组分析表明,表观遗传学特征作为预后特征可用于预测乳腺癌在不同亚组中的存活情况。应用4个独立的外部GEO数据集来验证13个基因表观遗传特征的预测价值,KM曲线显示,高风险组的存活率明显低于低风险组。
最后,基于rms包构建了将13个基因表观遗传特征,分期和分子亚型整合在一起的列线图,这为临床医生提供一种定量方法来预测患者OS情况。
这篇文献的意义在于:表观遗传特征的发现,可以有效地将乳腺癌患者进行风险分类,并且其效能与其他已知分类器(如分期、组织学、转移状态、受体状态)无关,因此它具有巨大潜力去进一步改善乳腺癌的个体化治疗。
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史