今天跟大家分享的是七月份发表在Theranostics杂志(IF:8.579)上的一篇文章,文章主要讲的是本工作基于TCGA和ACRG胃癌训练集数据,通过机器学习的方法,构建了一个最优的风险评估模型GPSGC,该模型在预测生存率方面比个体预后因素表现出更高的准确性。分析证明GPSGC评分对胃癌患者不良生存的影响可能与肿瘤微环境中基质成分的重塑有关。免疫调节基因分析结合实验验证进一步揭示,根据GPSGC,TGFβ1和VEGFB可能开发为预后不良的胃癌患者的潜在治疗靶点。
Identification of a Tumor Microenvironment-relevant Gene set-based Prognostic Signature and Related Therapy Targets in Gastric Cancer
基于肿瘤微环境相关基因集识别胃癌的预后特征和治疗靶点
一、摘要
胃癌(gastric cancer, GC)患者的预后差,由于遗传异质性和早期筛查困难,治疗效果有限。本工作开发并验证了个体化的基于基因集的胃癌预后标志物,并进一步探索胃癌中与生存相关的调控机制和治疗靶点。
本工作采用机器学习的方法,基于5套独立的样本集的1699例胃癌患者的基因表达数据,建立了具有完整临床注释的胃癌预后模型。对3套样本集的834例胃癌患者进行肿瘤微环境分析,包括基质和免疫成分、细胞类型、panimmune基因集和免疫调节基因,分析与GPSGC相关的调控生存机制和治疗靶点。为了证明GPSGC模型和治疗靶点的稳定性和可靠性,采用组织芯片对186例GC患者进行了多重荧光免疫组化。基于多变量Cox分析,使用两套训练集构建将GPSGC与其他临床危险因素相结合的nomogram,并通过两套验证集进行验证。
二、数据及方法
1.数据
(1)公共数据集
该工作使用5套样本集,包括TCGA-STAD、ACRG/GSE62254、GSE15459、GSE26253和GSE84437,涉及1699个患者。从GDC下载TCGA的342例患者的GC组织样本和邻近正常组织样本的RNA-seq(FPKM)数据和相应的临床数据,将表达值FPKM转化为TPM,然后z-score标化。另外四套GEO数据集下载原始数据,属于Affymetrix平台的用Affy包中的RMA算法进行背景校正,属于Illumina平台的使用lumi包进行处理,所有表达值进行z-score标化。都包含临床数据。
(2)GC患者的组织芯片
从上海芯超生物科技有限公司购入186名GC患者的组织芯片。
2.方法
(1)构建预后模型
使用R包limma识别胃癌组织与邻近正常组织之间的差异表达基因(DEGs)。然后使用R包survival的survidiff功能构建单变量Cox回归分析对DEGs进行生存分析。随后使用逐步Cox回归来计算模型的结果,一次添加一个基因,以确定新添加的基因是否能显著提高结果的准确性。最后,利用逐步Cox回归多元分析得到的回归系数,构建最优风险评估模型。使用X-tile软件来确定划分为低风险和高风险的GC患者的最佳阈值。采用log-rank检验和Kaplan-Meier生存分析评估预后模型的预测能力。
(2)肿瘤微环境(TME)特征分析
TME成分分析中,利用ESTIMATE方法基于基因表达特征来推断GC样本中基质细胞和免疫细胞比例。采用xCell方法分析TME细胞类型,是利用基因表达特征推断64种免疫细胞和基质细胞类型在样本中的比例。采用基因集变异分析(gene set variation analysis, GSVA)来进行panimmune基因集分析,估计110个免疫调节相关通路在GC样本中的富集分数。
免疫调节基因分析采用TCGA免疫应答工作组免疫肿瘤学专家总结的78个免疫调节基因,本工作获取了60个可检测免疫调节基因的表达水平。
(3)Nomogram构建和评估
根据多变量Cox回归模型的系数,使用R包rms构建了nomograms。通过绘制观察率与nomogram预测概率的对比图,对校准曲线进行了图形化评估,并计算了一致性指数(C-index),通过bootstrap法1000次重抽样对nomogram进行区分。
(4)统计分析
使用Pearson相关分析来确定两个变量之间的相关性。生存分析采用log-rank检验。P < 0.05认为有统计学意义。
三、结果
1. 在TCGA和ACRG训练集中开发和识别GPSGC
在本研究中,通过建立预后模型、确定生存机制和实验验证三个主要步骤来建立准确可靠的胃癌预后和治疗指导。来源于5套独立数据集的1699名患者的基因表达数据和186名GC患者的组织芯片数据和和临床信息用于分析(图1)。
图1. 研究流程
首先使用R包limma来识别TCGA-STAD训练集中肿瘤组织相对正常组织的DEGs。Kaplan-Meier和单因素Cox回归生存分析显示,在TCGA-STAD样本和ACRG样本中,22个DEGs的表达水平与预后显著相关。然后进一步采用逐步Cox回归多因素分析筛选最佳基因组合,构建最优多因素Cox回归模型GPSGC(图1)。基于VCAN、 CLIP4和MATN3这三个基因的表达值构建风险评分。通过X-tile软件获取最优阈值,将TCGA-STAD 和ACRG患者划分为高、低风险组。在TCGA-STAD样本和ACRG样本中,风险评分高的患者总生存期(OS)较短于低风险评分的(图2A-B)。在两套样本集中,GPSGC评分在预测短期和长期生存方面比个体预后因素(VCAN, CLIP4或MATN3表达水平)更准确(图2A-B)。图2C-D展示在TCGA-STAD样本和ACRG样本中,三种预后基因的表达和GPSGC风险评分分布与生存状态的关系。
图2.基于TCGA和ACRG训练样本生成GPSGC模型
2. 在多套GEO胃癌数据集中验证GPSGC
在GEO的三个独立样本集中评估了GPSGC的性能,共包含1057个样本。对于GSE15459验证集,GPSGC成功地对82名患者进行了分类(图3A)。在GSE26253验证集中,132个高风险样本的无复发生存期(RFS)低于300名低风险患者(图3B)。在GSE84437验证集中,146个高风险样本的无复发生存期(RFS)低于287名低风险患者(图3C)。根据GPSGC划分的高风险组的胃癌患者的OS或RFS明显比低风险组的患者差。
图3.根据GPSGC风险评分将GEO验证样本划分为高低风险组的生存曲线
3.胃癌患者TME成分与GPSGC风险评分及预后的关系
VCAN、CLIP4和MATN3蛋白的组织分布和细胞位置显示出与肿瘤微环境(TME)有一定的相关性。首先用ESTIMATE方法将TME分为基质和免疫成分,通过对834例患者(TCGA-STAD、ACRG和GSE15459)进行ssGSEA分析,确定基质和免疫评分。Pearson相关分析显示,基质评分与GPSGC风险评分呈强正相关(图4B),并且低GPSGC评分与免疫评分正相关(图4A)。以中位基质评分和中位免疫评分作为cutoff,对834名患者进行生存分析。发现免疫评分高或低的患者的OS无显著差异(图4C),而间质评分高的GC患者比间质评分低的患者有更差的OS(图4D)。以上结果说明,GPSGC评分与胃癌患者不良生存的关系可能与肿瘤微环境中基质成分的重塑有关。
图4.胃癌患者TME成分与GPSGC风险评分及预后的关系
4. 胃癌患者TME细胞类型、panimmune基因集和免疫调节基因与GPSGC风险评分和预后的关系
接下来对834名患者样本在细胞和分子水平进行了一系列TME特征分析。首先基于xCell算法推导出64种TME细胞类型的比例,并通过ssGSEA确定每种细胞类型的富集评分。共有9种细胞类型与OS及GPSGC风险评分显著相关(图5A)。比例最大的五种间质细胞均与预后及GPSGC风险评分呈正相关。比例第二高的是属于造血干细胞(HSCs)的两种细胞,其中一种与不良预后和GPSGC风险评分呈正相关。
接下来,通过分子水平的TME表征分析,探索GPSGC相关的潜在治疗靶点。使用GSVA来评估110个免疫调节相关通路在834例GC患者的富集评分。选出与OS和GPSGC风险评分显著相关的基因集,包含10个panimmune基因,其中8个与不良预后和GPSG呈正相关(图5B)。发现TGFβ相关的基因集和血管生成相关基因集与TME中基质成分重塑密切相关。为了确定GPSGC相关的特异分子靶点,分析了834例GC患者中60个可检测到的免疫调节基因,这些基因与GPSGC风险评分显著相关(图5C)。进一步分析显示,只有3个免疫调节基因VEGFB、TGFβ1和ENTPD1与不良预后显著相关。以上结果显示了与GPSGC相关的潜在生存机制和治疗靶点。
图5.胃癌患者TME细胞类型、panimmune基因集、免疫调节(IM)基因与GPSGC风险评分及预后的关系
5. GC组织芯片中GPSGC和治疗靶点的实验验证
接下来利用GC组织芯片联合多重荧光免疫组化(mfIHC)在蛋白水平进行实验验证。在186例胃癌患者的组织芯片中,蛋白表达修饰的GPSGC有效地将59例患者(31.7%)分为OS高风险组,127例患者(68.3%)分为OS低风险组(图6A)。OS分析证实了治疗靶点TGFβ1和VEGFB的GC组织蛋白表达与186例GC病人的不良预后显著相关(图6B-C)。图6D组织微阵列中具有代表性的GC样本显示,VCAN、CLIP4和MATN3的总体表达水平和定位与治疗靶点TGFβ1和VEGFB的表达显著相关。Pearson相关分析显示,蛋白表达修饰的GPSGC风险评分与TGFβ1和VEGFB蛋白表达呈强正相关(图6E-D)。结果验证了GPSGC模型的稳定性和可靠性,进一步说明TGFβ1和VEGFB可能根据GPSGC开发为预后不良的胃癌患者潜在的治疗靶点。
图6.GC组织芯片中mfIHC分析GPSGC风险评分、治疗靶点表达与总生存期的关系
6. 对基于GPSGC的nomogram进行构建与评价
接下来分析了GPSGC的预后价值是否独立于其他临床因素,首先进行多变量Cox回归分析,发现经校正包括年龄、性别和AJCC分级等临床特征后,GPSGC可以作为一个对患者预后的独立预测器(图7)。接下来基于多变量Cox分析,生成整合了GPSGC和其他临床变量的nomogram,来预测TCGA-STAD和ACRG训练集GC患者的3年和5年总生存率(图8A)。在GSE15459验证集和实验组织阵列验证集中,3年和5年发生OS概率的校准图的预测良好(图8B-C)。
图7.多变量Cox分析评估GPSGC及其他临床风险因素对OS的独立预测能力
图8. 构建并评估基于GPSGC的nomogram
总结:
本工作通过机器学习的方法,获得了一个最优的风险评估模型GPSGC,该模型在预测生存率方面比个体预后因素表现出更高的准确性。GPSGC评分对胃癌患者不良生存的影响可能与肿瘤微环境中基质成分的重塑有关。具体来说,TGFβ和血管生成相关基因集与GPSGC风险评分和不良预后显著相关。免疫调节基因分析结合实验验证进一步揭示,根据GPSGC,TGFβ1和VEGFB可能开发为预后不良的胃癌患者的潜在治疗靶点。此外,建立了基于GPSGC和其他临床变量的nomogram来预测胃癌患者3年和5年的总生存率,比单纯的临床特征显示了更好的预后准确性。GPSGC模型作为一种基于肿瘤微环境相关的基因集的预后标志物,为胃癌患者的生存预后提供了一种有效的评估,并可能通过选择个体化的靶向治疗来延长患者的总生存期。