肺腺癌CDK2相关的免疫预测模型和ceRNA的识别及泛癌分析
本文(Identification of CDK2-Related Immune Forecast Model and ceRNA in Lung Adenocarcinoma, a Pan-Cancer Analysis)于2021年7月发表在Frontiers in Cell and Developmental Biology杂志上,影响因子6.684。
研究背景:我们的研究旨在识别肺腺癌(LUAD)中具有显著预后价值的分子,并构建相关的Nomogram、immuno模型及ceRNA网络。
研究方法: 应用“GEO2R”、“limma”R包对GEO和TCGA数据库中所有差异表达mRNA进行鉴定。p<0.01,LogFC>2或<-2的基因被纳入进一步分析。通过DAVID和Metascape软件对250个重叠mRNA进行功能分析。通过UALCAN, Oncomine和R包,探索了CDK2在33种癌症中的表达水平及其与生存的关系。采用“Survival”、“surveminer”、“rms”等R包构建年龄、性别、分期、T、M、N的Nomogram预测模型,采用单因素和多因素Cox回归建立LUAD患者预后相关的免疫预测模型。ceRNA网络由各种在线数据库组成。利用GDSC数据库探讨CDK2的表达与抗肿瘤药物IC50的相关性(图1)。
研究流程:
研究结果
一、GSE68465数据的mRNA差异表达
根据P-value和LogFC筛选出250个差异表达的基因。在19个相邻非LUAD组织和433个LUAD组织中,有161个mRNA高表达,78个mRNA低表达(图2)。
图2:GSE68465样本的火山图、散点图、峰值图
二、250个DEmRNA的GO,KEGG分析
通过Metascape软件,找到了大量显著富集的通路,包括免疫应答激活、细胞粘附调节、参与免疫应答的T细胞激活以及PID-HNF3B通路(图3 A-D)。根据DEmRNA的关系,进行了几种蛋白分析(图3 E)。CDK2、MYB、GATA3在某些肿瘤通路中相互关联(图3 F)。利用DAVID分析基因的KEGG结果,发现9种mRNA参与了经典P13-AKT信号通路,如MYB、COL3A1、COL4A1、CSF1R、CDK2、ITGB7、LAMA2、TLR2、VWF。结合LUAD患者的生存,选择CDK2作为目标分子。利用KEGG进一步识别P13-AKT信号通路中CDK2的上游分子。最后,CDKN1A可能调节下游分子CDK2影响LUAD的细胞周期进程。使用GEPIA发现,CDK2和CDKN1A之间存在正相关关系(图3 G)。
图3: (A)显著富集的通路。(B) 不同通路之间的相互作用。(C,D)不同通路径的p值。(E)根据DE mrna的关系,进行多种蛋白分析。(F) CDK2、MYB、GATA3相互关联。(G) CDK2和CDKN1A之间存在正相关关系。
三、CDK2及其在LUAD中的预后价值的进一步研究
通过Ualcan数据库,研究了CDK2在LUAD组织和正常组织中的表达。与59个正常组织相比,515个LUAD组织中CDK2表达较高(图 4A)。CDK2在不同年龄层的表达水平存在差异(图 4B)。CDK2的表达与不同的临床特征有关,如分级、腺癌的类型、性别、吸烟、阶段、TP53突变状态及权重(图4 C-I)。CDK2的表达与LUAD患者的生存和预后有关(图 4J)。CDK2的表达越高,存活时间越短。通过这个数据库,发现了CDK2相关的基因(图4 K-L)。许多参与肿瘤经典信号通路的分子都与CDK2的表达有关。PrognoScan数据库:用于基因预后价值的meta分析的新数据库。进一步分析发现CDK2的表达影响了不同GSE数据集LUAD患者的OS和RFS(图4 M-P)。
图4 进一步研究CDK2在LUAD中的表达及预后分析(A) 515个LUAD组织中CDK2的表达高于59个正常组织。(B)不同年龄CDK2的表达水平可能存在差异(C) CDK2的表达与级别有关(D)腺癌的类型。(E)性别。(F)吸烟习惯。(G)分期。(H)TP-53突变状态。(I)体重。(J) CDK2表达与LUAD患者的生存和预后有关。(K,L)CDK2相关基因和热图。(M-P)CDK2表达影响LUAD患者的OS和RFS。
四、CDK2在泛癌中的表达分析
Oncomine数据库显示,15个癌组织中CDK2的表达高于正常组织 (图 5A)。肿瘤组织与正常组织有很大的不同。在TIMER数据库中进一步发现了正常组织和肿瘤组织之间的统计学意义(图 5B)。15篇已发表的LUAD研究的Mata分析显示,CDK2在LUAD中表达较高(图 5C-E)。根据CDK2在33种癌症中的表达情况对其进行了排名(图 5F)。
图5 CDK2在泛癌分析中的表达。(A)通过Oncomine数据库,CDK2的表达在15种癌症组织中高于正常组织。(B)数据库TIMER中CDK2的表达。(C)对15个发表的LUAD研究进行Meta分析,结果显示在LUAD中CDK2高表达。(D, E)LUAD中CDK2的t检验、箱式图图和峰值图(F) CDK2在33种肿瘤中的表达。
CDK2的表达在17种癌症中有所增加(图 6A–Q)。CDK2的不同表达水平在患者分期上有统计学意义。CDK2在第I阶段和第III阶段、第I阶段和第IV阶段、第II阶段和第IV阶段之间表达存在显著差异(图 6R–Y)。
图6 不同肿瘤的表达及分期(A-Q) CDK2在17种肿瘤中表达较高(R-Y) CDK2的不同表达水平在患者分期上具有统计学意义。
对于不同类型的癌症,进行了CDK2的配对样本差异表达分析。发现14种肿瘤类型的差异均有统计学意义(图 7A-N)。在10种癌症中,CDK2的高表达与患者不良预后相关(图 7O-X)。
图7 CDK2的配对样本表达及生存分析(A-N)对于不同类型的癌症,进行了CDK2的配对样本差异表达(O-X)在10种癌症中,CDK2的表达与患者的预后有关。
五、CDK2的功能富集分析
作者比较了LUAD中CDK2高表达组和低表达组的基因表达(图 8A、B)。以FP为横坐标,TP为纵坐标,绘制1、3、5、8年的AUC曲线来预测患者的生存期(图 8C)。功能分析表明,CDK2与DNA复制、细胞周期调控、细胞周期检查点、P53信号通路有关(图 8D-G)。GO、KEGG、Reactome的波谱图显示,CDK2参与了TP53活性调控、PTEN调控、细胞凋亡、P13K-AKT信号通路等经典肿瘤信号通路(图 8H-K)。利用CIBERSORT,发现CDK2与CD4 T细胞、巨噬细胞M1正相关,与Mast细胞负相关(图 8L)。
图8 CDK2功能富集分析。(A, B)展示了CDK2高表达组和低表达组前50个基因的热图。(C)1、3、5、8年的AUC曲线预测患者的生存(D) CDK2与DNA复制、细胞周期调控、细胞周期检查点、P53信号通路有关。(H-J) GO、KEGG、Reactome的波谱图显示CDK2参与了TP53活性调控、PTEN调控、细胞凋亡、P13K-AKT信号通路等经典肿瘤信号通路。(K)通路环形图(L)CIBERSOPT算法显示CDK2与CD4 T细胞、巨噬细胞M1 正相关,与肥大细胞呈负相关。
六、CDK2免疫细胞浸润特征
在LUAD中,进一步研究了CDK2在不同免疫细胞类型中的表达情况。发现有14种免疫细胞与CDK2的表达密切相关,如滤泡细胞、T细胞调节性TREG细胞、巨噬细胞M0、巨噬细胞、嗜酸性粒细胞、激活的肥大细胞、巨噬细胞M1、肥大细胞、单核细胞、静息肥大细胞、浆细胞、CD8+T细胞、中性粒细胞、CD4+T细胞(图 9A-N)。根据CDK2表达的中位数,将LUAD患者分为高表达组和低表达组。不同组的10个免疫细胞表达有系统性差异(图 9O-X)。
图9 CDK2免疫细胞浸润特征。(A-N)14种免疫细胞与CDK2表达密切相关,(O-X)在不同的CDK2表达组,免疫细胞的表达存在系统性差异。
七、免疫相关预测模型的构建
通过TISIDB数据库,发现了CDK2相关的免疫调节剂,免疫增强剂和免疫抑制剂(图 10A,B)。通过P值排序,鉴定了与CDK2高度相关的13种免疫抑制剂和21种免疫增强剂。在cBioProtal中,探索了与34个免疫调节剂相关的49个基因。从TCGA数据库下载临床数据和基因表达数据。使用“perl”和“R”包从TCGA中混合了49个基因(图 10C)。在Metascape数据库中,49个基因中最富集的通路是免疫系统过程,其他功能有生物粘附、生物调节、细胞增殖(图 10D)。49个免疫相关基因的蛋白存在相互作用(PPI,图 10E)。GSEA分析了49个基因的功能、ES、NES、NOM p-val、FDR q-val。具有统计学意义的项为PUJANA_ATM_PCC_NETWORK和INTRACELLULAR_SIGNAL_TRANSDUCTION (图 10F)。结合临床资料和表达矩阵,对年龄、性别、肿瘤分期进行单因素和多因素回归分析。如预期的那样,肿瘤分期是影响LUAD患者预后的独立危险因素(图 10G)。Nomogram预后预测模型结合年龄、性别、分期、T、N、M等临床因素从而直观地分析LUAD的预后(图 10H)。以临床数据为基础,采用Nomogram模型对每个患者进行评估。单因素回归分析显示,有36个基因与LUAD的预后相关。CDK2是LUAD的独立预后基因(图 10I)。对36个基因进行多因素回归分析,预测模型中仅包含4个基因(SIT1、SNAI3、ASB2、CDK2)。通过GEPIA数据库,LUAD中SIT1、SNAI3、ASB2的表达较低(图 10J-L)。为了验证预后模型,风险曲线显示高风险组对肺癌患者的致命性更高(图10M)。根据不同的风险得分,将患者分为高、低风险组(图10N,O)。ROC曲线显示4个感兴趣基因的AUC不同,CDK2在预后模型中具有更大的预测价值(图 10P)。
图10 构建免疫相关的预测模型。(A, B)CDK2的免疫增强剂和免疫抑制剂的热图。(C) 使用“perl”和“R”包对TCGA中的49个基因进行混合。(D) 49个基因最富集的通路是免疫系统过程。(E)49个免疫相关基因的蛋白质互作网络。(F)GSEA 分析 49个基因的功能,ES, NES, NOM,p-val 和 FDRq-val。(G)森林图显示了LUAD的风险比和一致性指数。(H)Nomogram模型结合了年龄、性别、分期、T、N、M等临床因素。 (I)36个显著基因的危险比(HR)、HR95L、HR95H、p值。(J-L) 通过GEPIA数据库,LUAD中SIT1、SNAI3、ASB2表达较低。(M)风险曲线显示,高危组对肺癌患者的致命性更高,(N,O)高风险和低风险图,(P) ROC曲线显示四个感兴趣基因的不同AUC。
八、LUAD中HPA分析与预测ceRNA网络构建
免疫组化结果显示,LUAD组织中CDK2的表达明显高于正常肺组织(图 11A,B)。作者从TargetScan数据库中选择了455个与CDK2相关的miRNA。miRWalk数据库中发现10018个miRNA。作者探索了来自mirDB的76个miRNAs和来自Starbase的28个miRNAs。结合LUAD中差异表达的miRNAs, 7个miRNAs通过Venn map加入到网络中(图 11C)。这些miRNAs对LUAD患者的预后有显著影响(图 11D-J)。我们使用Starbase数据库找到了可能调控7个miRNAs的lncRNA。这些编码基因与非编码基因通过Cytoscape软件相互作用(图 11L)。根据网络的程度,使用CytoHubba筛选出前15的基因(6个lncRNAs: XIST、SNHG16、RP11-145M9.4、MAP3K14、MIR4720、RP11-379K17.11)(图11K)。
图11 HPA分析和ceRNA网络。(A)正常肺组织中的免疫组化结果。(B)LUAD组织中的免疫组化结果。(C)四个数据库的交集结果用维恩图表示。(D-J) 7个miRNA的生存分析。(K) 6lncRNAs-7miRNAs-cCDK2被CytoHubba视为前15个基因。(L)用Cytoscape构建ceRNA网络。
九、CDK2表达的PCR结果
与BEAS-2B细胞株相比,A549细胞株CDK2表达增加,但差异无统计学意义。H1299细胞株与H1975细胞株差异有统计学意义(图11M)。
(M) CDK2在BEAS-2B、A549 、H1299、H1975 中的表达情况。
十、耐药相关性分析
共有192种抗肿瘤药物被纳入研究。89种抗肿瘤药物的IC50水平与CDK2的表达有关。根据P<0.05,筛选出相关性最高的20种抗肿瘤药物,如喜树碱、长春碱、顺铂、阿糖胞苷、纳维托乐、伏立诺他、尼罗替尼、奥拉帕尼、阿昔替尼、AZD7762、SB216763、kul -55933、PLX4720、Wee1抑制剂、PD173074、Obatoclax 甲磺酸帕珠沙星、索拉非尼,伊立替康、BMS536924、 GSK1904529A (12A-T)。
图12 与CDK2(A-T)相关的前20位抗肿瘤药物。
研究结论
综上所述,我们发现一组包括CDK2表达在内的4个基因在LUAD中具有重要的预后价值。CDK2的表达与癌症的免疫反应高度相关。作者做了一些预测,将CDK2的表达与药物反应和miRNA的表达联系起来。