今天跟大家分享的是一月份发表在Frontiers in Oncology杂志(IF:4.848)上的一篇文章A Combined Epithelial Mesenchymal Transformation and DNA Repair Gene Panel in Colorectal Cancer With Prognostic and Therapeutic Implication,该工作首先基于联合EMT和DNA修复基因的panel对结直肠癌患者进行分型,然后比较了不同类之间的临床特征、基因突变、肿瘤突变负荷、化疗及免疫治疗敏感性,最后采用LASSO回归方法建立风险模型来预测患者生存及免疫治疗获益情况。
A Combined Epithelial Mesenchymal Transformation and DNA Repair Gene Panel
in Colorectal Cancer With Prognostic and Therapeutic Implication
在原发性前列腺癌中由预后特征转录因子及其长链非编码RNA伙伴调控转录网络
上皮细胞-间充质转化(EMT),是指上皮细胞通过特定程序转化为具有间质表型细胞的生物学过程。在胚胎发育、慢性炎症、组织重建、癌症转移和多种纤维化疾病中发挥了重要作用。EMT是上皮细胞来源的恶性肿瘤细胞获得迁移和侵袭能力的重要生物学过程。所以EMT在肿瘤发生发展中具有重要作用,也可以说是一种重要标志。肿瘤细胞的DNA损伤修复能力对肿瘤细胞的生存也有重要作用,当肿瘤细胞发生DNA损伤却无法修复时,会导致损伤积累癌细胞死亡。所以今天向大家介绍的这个研究就是基于EMT和DNA修复标志基因对结直肠癌进行分型和预后研究的,让我们一起来看一下具体都做了哪些工作吧~
一、摘要
上皮间质转化和DNA修复状态代表了结直肠癌(CRC)的内在特征,并且与患者预后和治疗反应性相关。该工作建立了一个联合EMT和DNA修复基因的panel,能够对病人进行分类,并实现精准治疗。首先综合评估了来自四个数据集的1652个CRC患者的EMT和DNA修复模式,然后采用无监督聚类进行分类。接着系统的比较了不同类之间的临床特征、基因突变、肿瘤突变负荷、化疗及免疫治疗敏感性。最后采用LASSO回归方法建立风险模型。
该工作确定了三个不同的CRC类。类1的特征是DNA修复通路下调,但上皮标志和代谢通路活跃,预后中等。类2的特征是上皮标志物和DNA修复通路均下调,预后较差。类3表现为DNA修复通路和上皮标志激活,预后良好。类1可能受益于化疗,而类3对免疫治疗有更高的响应率。该研究开发并验证了联合EMT和DNA修复基因组用于CRC分类,是预测CRC患者生存和指导治疗的有效工具。
二、数据及方法
1. 临床样本
该研究共涉及来自广西医科大学肿瘤医院8例患者的CRC临床样本,其中2例为转移性CRC样本,6例为非转移性CRC样本。所有患者在收集组织前均经病理学诊断为CRC,未进行化疗或放疗。对样本进行RNA测序。
2. 公共数据集
使用TCGA两套数据集(COAD和READ)的mRNA表达、体细胞突变和拷贝数变异数据,以及GEO的三套数据集(GSE39582、GSE17536和GSE14333)的mRNA表达数据。每套数据集包含预后数据。
为了分析免疫治疗的有效性,还使用R包“IMvigor”的“IMvigor”数据集,即接受anti-PD-L1药物(atezolizumab)治疗的转移性尿路上皮癌患者。
3. 生成EMT和DNA修复基因panel和无监督聚类
该工作从已发布的研究(Piskol et.al、Subramanian et.al和Kardos et.al)获取EMT相关基因,从MSigDB数据库获取DNA修复相关基因集。对GSE39582数据集使用单因素cox回归分析筛选预后相关基因,保留p < 0.1的基因进行下一步分析。接下来根据EMT和DNA修复基因panel的表达,对样本进行无监督聚类分析,并使用R包“ConsensuClusterPlus”进行一致性聚类算法来确定聚类的数量和稳定性。
4. 基因集变异分析(GSVA)与功能注释
为了研究不同类中富集的生物通路,使用R包GSVA通过采用无监督聚类方法来估算通路活性在样本群体中的变化。校正P < 0.05为有统计学意义。
5. 开发和验证EMT和DNA修复风险模型
为了减少维数和挑选最有意义的预后指标,对EMT和DNA修复基因panel使用LASSO Cox回归模型。LASSO会自动删除不必要的协变量。采用10倍交叉验证法确定LASSO回归的最佳调优参数。然后对LASSO选择的显著基因进行逐步cox回归。根据赤池信息准则(AIC,是衡量统计模型拟合优良性的一种标准)选择最终回归模型。GSE39582作为训练集,TCGA队列作为验证集,根据训练集构建的风险模型,对验证集中的每个患者计算出预测值并使用ROC和AUC评价风险模型的预测判别能力。
6. 统计分析
非正态分布变量间的差异采用Mann-Whitney U检验,正态分布变量采用非配对T检验。使用非参数Kruskal-Wallis方法和参数单因素方差分析方法比较两组以上组间差异。采用Spearman和距离相关分析计算相关系数。预后分析用Kaplan-Meier法生成生存曲线,使用log-rank检验确定差异的显著性。采用Cox比例风险模型和“LR forward”逐步法进行单因素和多因素分析。通过时间相关的ROC分析评估预后模型的准确性。p < 0.05认为具有统计显著性。
三、结果
1. 基于EMT和DNA修复基因识别不同的分子类
根据98个预后EMT和DNA修复基因将GSE39582的CRC样本分为不同的分子簇聚类,根据Elbow方法,最优类数为3(图1A)。一致性矩阵热图显示了确定的三个类(图1 B)。不同类型的结直肠癌患者具有特定的EMT和DNA修复基因表达模式(图1D),类1中上皮标志表达增加,而DNA修复基因表达下调,类2上皮标志和DNA修复基因低表达,类3上皮标志和DNA修复基因表达明显增加。三个类有不同的生存情况,类3预后最好,类2预后最差(图1C)。
接下来在验证集进一步验证98基因panel。首先使用TCGA的619例CRC样本,确定了三个不同的类(图1E)。生存分析显示不同的类预后结果不同,类2预后最差(图1F)。然后使用GSE14333作为验证集同样进行相同的聚类分析,结论一致。
图1. 基于EMT和DNA修复基因识别不同分子类
2. 类与临床特征和经典分类的相关性
使用GSE39582分析CRC分类与临床特征之间的关系(图2A)。类1与低比例的BRAF突变、CpG岛甲基化表型和dMMR相关,但类1中远端CRC、淋巴转移及CIN的患者比例较高,主要富集于CIT亚型(一种识别了CRC六种亚型的方法)的C1、C5和C6。类2与BRAF突变、CIMP、T4期、远处转移和年轻患者的高比例相关,类2主要富集于CIT亚型的C4。类3有高比例的dMMR、淋巴结阴性、无远处转移和老年患者,主要富集在CIT亚型的C2、C3和C5。图2B总结了CLT亚型与本工作不同类之间的关系。然后进一步使用TCGA数据集再次验证了上述关联。
图2. 根据聚类分析CRC患者的临床和分子特征。
3. 不同类中的肿瘤基因组变异特征
基于TCGA数据集,该工作分析了体细胞单核苷酸变异(SNVs)在不同类间的分布差异(图3A-C)。三个类的体细胞突变频率没有显著差异。类2和类3的TMB高于类1(图3D),结果表明,类2和3可能获益于免疫治疗。然后识别出有352个基因在三个类中扩增或缺失频率存在显著差异(图3E)。接下来对上述通过352个基因进行富集分析来识别异常扩增或缺失的生物学过程和通路。
图3. 不同类中的肿瘤基因组变异特征
4. 类预测化疗和免疫治疗的治疗效益
辅助化疗(ADJC)是非转移性结直肠癌患者的主要治疗策略。接下来首先利用GSE39582数据集分析EMT与DNA修复基因类与ADJC获益的关联。使用OS来评估治疗结果,发现只有类1的患者在接受ADJC后OS得到了改善(图4A)。无论是否接受ADJC治疗,类2和类3患者的OS均无显著差异(图4B-C)。结果表明,类1的患者可能受益于化疗。
接下来根据一个免疫治疗数据集(Imvigor210)来分析该工作的聚类是否可以预测免疫治疗获益情况。在类3中,获得完全缓解(CR)或部分缓解(PR)的患者比例显著增加(图4D),说明类3患者从免疫治疗中获益的比率更高。
图4. 类预测化疗和免疫治疗的治疗效益
5. 不同类富集的生物学通路和过程
接下来使用GSVA富集分析对KEGG通路进行富集。结果显示(图5A),类1显著富集在代谢相关通路,类2主要富集于EMT相关通路,类3主要富集于DNA修复通路。图5B表示具有代表性的通路及其在不同类中的富集分数。通过分析发现三个聚类具有明显不同的生物学特性。类1的特征是代谢通路激活,类2的特征是EMT激活,类3的特征是DNA修复激活。
图5. 不同的类中富集的生物学通路和过程
6. 构建与预后和治疗关联的EMT和DNA修复风险评分
应用LASSO Cox回归模型对98个EMT和DNA修复基因进行降维。GSE39582队列作为训练集,TCGA队列作为验证集。LASSO Cox回归的最合适的调整参数l是0.036(图6A-B)。选取校正参数系数非零的16个基因,进行逐步cox回归分析。最终,使用9个基因来构建评分系统(图6C)。相关分析显示,这9个基因在不同类中表达显著差异,表明这些基因代表了不同类的特征。根据预测的风险评分将患者分为高风险组和低风险组,生存分析表明,风险评分在区分CRC患者预后方面具有显著作用(图6 D)。
接下来进一步在TCGA队列中验证了评分模型。与低风险患者相比,高风险患者预后较差(图6E)。ROC曲线分析显示,在GSE39582队列和TCGA队列中风险评分的区别程度相似(图6E)。然后分析了风险评分、基因表达与生存状态之间的相关性(图6G-H)。接下来,分析了风险评分与聚类的相关性。预后较好的类3风险评分最低,预后最差的类2风险评分最高,类1预后中等,具有中等风险评分(图6I)。使用内部数据进一步验证风险评分。发现转移性结直肠癌患者的风险评分高于非转移性结直肠癌患者,但差异无统计学意义,可能是由于样本量小(图6J)。结果表明,风险评分与预后密切相关,不同的聚类具有不同的风险评分。
接下来研究了风险评分是否可以预测免疫治疗的情况。类3从免疫治疗中获益的比率更高。首先比较了基于Imvigor210队列的不同群组的风险评分水平。集群3的风险评分最低,表明低风险评分预测免疫治疗的获益情况。
图6. 构建EMT和DNA修复风险评分
总结:
该工作首先基于联合EMT和DNA修复基因的98个基因panel对结直肠癌患者进行聚类分型,发现三类样本分别具有不同的EMT和DNA修复特征,并在验证集中验证。然后比较了不同类之间的临床特征、基因突变、肿瘤突变负荷、化疗及免疫治疗敏感性,发现聚类可以预测化疗和免疫治疗的治疗效益情况。然后对不同类进行富集分析,发现类1的特征是代谢通路激活,类2的特征是EMT激活,类3的特征是DNA修复激活。最后采用LASSO回归方法建立9基因风险模型来预测患者生存及免疫治疗获益情况。