小编今天跟大家分享的是9月27号发表在frontiers 3+上的一篇文章
9个基因构建的胰腺癌OS预后模型
大家好,首先感谢关注生信人。生信人目前拥有超级预后,超级可变剪切,突变+表达,表达+突变,DNA甲基化,自噬,ceRNA、经典预后、m6A、可变剪切、肿瘤微环境,免疫浸润,多组学,驱动基因,突变,耐药,CNV肿瘤干细胞等多种经典和新潮分析思路和方案。
欢迎有实力者扫码鉴赏
Abstract
背景:胰腺癌(PAAD)有极高 的致死率和侵袭性,男女致死率逐年上升。需要更好地评估预后来优化治疗策略。方法:GEO下载PAAD 7个数据集及TCGA-PAAD数据集。使用GEO数据集筛选差异基因,单因素cox和lasso回归分析筛选与PAAD预后相关的差异基因,构建预后风险评分模型,并且评估模型性能。两个GEO数据集做为外部验证预测模型。GSEA富集分和肿瘤免疫分析评估PAAD分子机制和免疫的关系。多因素cox回归分析识别PAAD独立的预后因素,构建列线图指导医生临床治疗。结果:构建了9个基因组成的PAAD预后风险评分模型,基于TCGA和外部验证集ROC曲线和一致性指数都表明相对于经典AJCC分期有很好的预测效能。多因素cox回归分析结果表明风险评分模型是PAAD独立的预后因子。列线图表明临床因素结合风险评分模型在总体生存率优于AJCC分期。高风险评分组富集在肿瘤学特征和与侵略性相关的途径,并且与低水平CD4 + T细胞浸润显著有关。
流程图
Result
一、识别PAAD差异基因
GSE71729, GSE62165, GSE62452, GSE28735, GSE15471, GSE16515, and GSE32676 7个PAAD数据集信息(Table1),对7个数据集筛选差异基因(见图1a),使用Robust rank aggregation(RRA)法最终一共得到了234个差异基因(包括160上调、74个下调基因)。排在前20的上下调基因(见图1b)。基于GSE16515数据集对差异基因对样本进行层次聚类,热图(见图1c)。
图1
二、PAAD差异基因GSEA富集分析和PPI网络分析
为了探索PAAD差异基因参与了什么样的功能通路,使用GO和KEGG对其进行富集分析,结果显示基因集显著富集在胞外基质和细胞转移之间对互作关系上(见图2a),这一发现与胰腺癌高度浸润和转移性相符;KEGG通路分析表明,差异基因参与了PI3K-Akt信号通路,癌症通路以及细胞解离相关关的通路等(结果见图2b)。此外,差异基因参与了轴突导向通路,表明他们参与了胰腺癌对神经性转移。可视化差异基因参与的癌症相关通路和对应的差异基因(见图2c)。
图2
为了识别基因互作关系,基于差异基因构建了一个包含186个节点691个互作关系的PPI网络。通过MCC方法计算度和介数获得hub基因,前25的hub基因可能在网络中起关键作用。模块分析识别了PPI网络中得分最高的三个聚类模块(见图3a-c),核心基因至少在其中一个模块中出现,功能富集分析表明模块1与细胞粘附和胞外基质相关;模块2与血管和平滑肌发育相关,表明可能参与肿瘤血管的生成;模块3与细胞粘附相关。综上,PPI网络分析表明,差异基因参与了胰腺癌的发展,尤其是在侵袭和转移过程中。
图3
三、识别生存相关的差异基因及构建9个基因的预后签名
1、基于TCGA PAAD数据集165个患者(随访时间>30天)进行生存分析,单因素cox回归分析识别了130个显著与预后相关的差异基因。Lasso 罚分cox分析构建了一个9个基因组成的预后签名,风险评分(见图4)
图4
基于风险评分将TCGA患者样本分成高、低风险组或高、中、低风险组,K-M生存曲线显示高风险得分整体生存更差(见图5d-e)。ROC曲线和C-index 指标评估了风险评分模型与AJCCstage在1、2、3的整体生存预测准确性比较(见图5a-c)。风险评分校准曲线表明,模型低预测总生存期和观测低总生存期一致(见图5f)。风险得分分布及9个基因基于TCGA数据集的聚类热图(见图5g)。进一步探讨相对治疗获益与风险评分的关系,K-M分析表明,风险评分较高(前50%)的患者对化学疗法,分子靶向疗法和放射疗法的反应比风险评分较低的患者更好。综上9个基因的组成的预测模型能够很好的预测PAAD的整体生存期。
图5
四、9基因签名风险评分模型预测效能外部验证
为了验证模型的预测效能,使用GSE62452 and GSE57495数据集进行验证;对每个样本计算风险评分,得到高低风险得分组。基于GSE62452数据K-M生存曲线表明两组之间有显著对整体生存期,高风险得分组有更差的预后(见图6d)。基于GSE62452数据风险评分模型与AJCC tage在1、2、3的整体生存预测准确性比较(见图6a-c)。外部数据集验证结果表明,9个基因签名的预测模型在预测胰腺癌患者的总体生存方面表现良好。
图6
五、预测模型9个基因的表达和变异验证
预测模型的9个基因的表达使用GEPIA数据库验证了其表达量。相对于正常样本COL17A1, CEP55, KLK10, MET, ITGB6, ANKRD22, 和 ARNTL2 在肿瘤样本中显著高表达。MCOLN3 和SLC25A45则相反(见图7a)。人类蛋白质数据库用来探索蛋白表达水平,除了KLK10没有包含在数据库中外其他基因在正常和疾病组织中特定IHC(见图7b)。165个PAAD病人中有9%的患者这9个基因都存在突变,大部分常见突变都出现于上调基因(见图7c)。
图7
六、PAAD预后因子的评估
TCGA PAAD数据集1/9的样本具备完整信息,信息包含了年龄、grade吸烟酗酒史等。使用单因素和多因素cox回归分析对这些样本进行整体生存分析。结果显示risk score(p=0.0005)、tumor size(P = 0.0235) 、AJCC stage (P = 0.0224; IIB vs. I; P = 0.0108; III and IV vs. I)等11个因素与患者对整体生存显著相关;多因素cox回归分析显示risk score, tumor size, history of targeted molecular therapy 是独立的预后因子(见Table5)
七、PAAD预后效能列线图的构建和验证
基于91个TCGA具有完整临床信息的样本,使用stepwise Cox回归模型构建预测1、 2、 3年整体生存的列线图(见图8a)。Risk score, age, tumor size, 等7个因子被包含在列线图中。列线图和AJCC stage预测的1、2、3年整体生存AUC值(见图8b),结果表明列线图的预测效能优于AJCC stage。根据列线图得分将样本分成高、中、低3组,K-M生存分析展示来三组不同的风险(见图8c),结果表明高的得分有更差的预后。校准曲线图表明列线图在胰腺癌患者中有良好的预测效能(见图8d)
图8
七、GSEA富集分析
为了评估预测模型9个基因的分子机制,TCGA PAAD数据集165样本根据风险评分被划分为高低风险评分两组。高风险得分组显著富集到23 肿瘤学特征,例如MAL, AGR,等(见图9a)。KEGG通路被富集在高得分组,例如regulation of the actin cytoskeleton, ubiquitin-mediated proteolysis等。这些富集通路表明高风险得分组相关分子改变与胰腺癌恶变有关, 尤其是转移和侵袭。
图9
八、9个基因风险预测模型与临床特征、肿瘤免疫相关性
为了评估预测模型9个基因与胰腺癌临床特征的关系,基于TCGA和GEO数据在AJCC stage、grade 、转移和关键基因的突变状态方面进行分析(见图9b-i、o)。此外,还通过计算高低风险组的免疫评分和基质评分评估基因标记与肿瘤纯度和肿瘤组织中浸润的基质/免疫细胞的存在的关联,来研究预测模型和肿瘤免疫的相关性(见图9 j-n),
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史