导读:
今天给大家分享的文献是2022 年 5 月发表于《EBioMedicine》(IF:8.143)上的一篇文献。这篇文献介绍了一种基于个体样本中基因表达水平排序的个体化通路活性计算 (IPAM) 的新方法。利用 IPAM,研究人员对来自 TCGA 中的 33 种癌症的 10528 个肿瘤/正常样本计算了KEGG 数据库的 318 条通路的通路活性,以识别不同癌症类型之间的特征性失调通路。
个体化通路活性算法识别泛癌分析中的致癌通路
算法开发流程
1. 数据收集
2. 算法原理
该研究共纳入 TCGA中的33种癌症类型队列中的 10528 个肿瘤/正常样本。首先对于给定的样本,将所有基因的表达值从小到大排序,排序值作为基因的表达水平。为减少基因表达的微小变化对整个通路活性水平的影响,突出变化大的基因对表达水平的影响,研究人员将相同十位的基因等级视为同一水平,分配给相同的分数。然后通过将每个通路中所有基因的基因表达水平相加并除以该特定通路的基因数量来计算途径活性,以解释不同通路中的基因数量效应。最后获得了318 条 KEGG 通路的通路活性用于后续分析(图1)。
结果
1. IPAM 在癌症分类中的性能
为评估 IPAM 的性能,研究人员将其与其他算法和工具进行比较。图2a结果显示,在所有通路活性算法中,IPAM 在几乎所有癌症类型中都具有最高的分类性能。为进一步验证 IPAM 的稳定性,研究人员利用IPAM对来自GEO 数据库中的独立癌症数据集进行分类,IPAM 表现出比其他五种通路活性算法(iPAS 、Pathifier、PLAGE、ssGSEA 和 IndividPath)更好的性能(图2b)。此外,在血小板 (TEP) 数据集的分析中,IPAM 在癌症早期诊断中表现出的潜力显著优于除 Pathifier 之外的其他方法(图2c)。综上,IPAM在多种癌症数据的癌症分类中具有显著优势,在癌症的早期诊断中也具有很高的应用潜力。
2. 通路失调的泛癌鉴定
研究人员在TCGA的20 个不同癌症队列中对 318 条 KEGG 通路进行差异分析,以识别不同癌症类型之间的特征失调通路。图 2d结果显示,在所有癌症类型中,肺鳞状细胞癌(LUSC)、胆管癌(CHOL) 和 肾透明细胞癌(KIRC) 的失调通路数量最多,而 胰腺癌(PAAD)、宫颈鳞癌和腺癌(CESC)和子宫内膜癌(UCEC)的最少。在318条 KEGG 通路中,酪氨酸代谢通路在大多数癌症类型中都变化显著,并在除 CESC、PAAD 和前列腺癌(PRAD )之外的 17 种癌症类型中都显著失调(图 2e、f)。为确定不同癌症之间的特征失调通路,研究人员基于 318 条 KEGG 通路的变化程度进行聚类分析。图2g中的聚类结果显示出很强的组织特异性,具有相同组织学起源的癌症类型表现出相似的通路失调模式。
3. 基于通路活性的生存分析
具有不同通路失调模式的癌症类型可能在生存结果方面存在差异。因此研究人员对每种途径进行生存分析,鉴定出多种癌症类型中与生存相关的通路。图 3a结果显示,在所有癌症类型中,脑低级别胶质瘤(LGG)、肾透明细胞癌(KIRC)和葡萄膜黑色素瘤(UVM)中与患者生存相关的通路最多,直肠癌(READ)、甲状腺癌(THCA)和子宫肉瘤(UCS)中最少。DNA复制、细胞周期、钙信号通路以及脂肪细胞中脂肪分解的调节等通路与多种类型癌症患者的预后显著相关(图3b)。图 3c结果显示,ECM-受体相互作用、粘着斑、癌症中的microRNAs和糖胺聚糖生物合成等通路是对癌症患者生存最不利的通路;乙醛酸和二羧酸盐代谢、过氧化物酶体、丁酸代谢和脂肪酸降解等通路则是对癌症者生存最有利的通路。为进一步确定不同癌症之间的生存特征,研究人员基于 318 条 KEGG 通路的风险比 (HR) 进行聚类分析。图 3d结果显示,一些癌症类型在聚类分析中紧密聚集,如多形成性胶质细胞瘤(GBM)和急性髓细胞样白血病(LAML)、胃癌(STAD)和 LUSC等,说明这些类型癌症的患者生存情况具有相似的模式。为检验 IPAM 对患者预后的预测能力,研究人员对 25 种癌症类型进行单变量和多变量 Cox 回归分析,结果显示该算法可以作为预测癌症患者生存的有用工具(图3e-f)。总而言之,上述结果表明IPAM 能够表征个体患者的通路失调,可作为癌症分类和生存预测的有用工具。
4. 不同 KEGG 类别中的泛癌通路失调
KEGG 通路可分为 6 大类,分别是细胞过程、环境信息处理、遗传信息处理、人类疾病、新陈代谢和生物系统。图 4a结果显示,在细胞过程这一类别中,只有细胞周期和 p53 信号通路在大多数癌症类型中显著上调;在环境信息处理中,大多数信号转导通路在大多数癌症类型中呈下调趋势;在遗传信息处理的类别中,大多数通路在大多数癌症类型中都被上调;在参与代谢的途径中,大多数这些代谢通路在多种癌症类型中被下调;在生物系统这一类别中,大多数通路在大多数癌症类型中都被下调。
为确定不同 KEGG类别之间通路失调的模式,研究人员进一步对每个 KEGG 类别的失调通路进行层次聚类,图 4b结果显示包括肺癌(LUAD 和 LUSC)、结直肠癌(COAD 和 READ)和子宫癌(CESC 和 UCEC)在内的大多数癌症亚型构成了代谢类别聚类分析中的主要组别,表明这些癌症亚型具有类似的代谢失调模式。
5. 代谢途径在癌症途径失调中起主导作用
通过对每种癌症类型的 6 个主要 KEGG 类别中显著失调的通路数量进行统计,研究人员发现所有癌症中失调的通路属于代谢类别的数量最多,其次是生物系统类别,而细胞过程类别中的通路失调数量最少(图5a)。与其他类别的途径相比,代谢途径在大多数癌症类型中失调的概率更大,并且在每个癌症数据中的样本之间的异质性差异也最大,说明了代谢途径的重要作用(图 5b-c)。于是研究人员利用 11 种癌症类型中的 85 种代谢通路的通路活性作为肿瘤分类模型,图 5d结果显示,基于 85 种代谢途径的癌症分类模型与基于所有 KEGG 途径的预测效率一样好,体现了代谢途径在途径失调中的主导作用。研究人员又将 85 条单独的代谢途径细分为 8 个主要代谢类别,分析发现氨基酸、碳水化合物和脂质的代谢在泛癌中广泛失调,且与多种类型癌症患者预后显著相关(图 5e-g)
6. 支链氨基酸代谢影响肾癌的进展和预后
为进一步研究通路失调的驱动因素并阐明癌症的病理机制,研究人员对特定癌症类型中通路失调的个别通路进行了系统分析。氨基酸代谢类别的聚类分析结果显示,缬氨酸、亮氨酸和异亮氨酸生物合成途径在包括肾嫌色细胞癌(KICH)、肾透明细胞癌(KIRC)和肾乳头状细胞癌(KIRP)在内的肾癌中显著上调(图 5e)。缬氨酸、亮氨酸和异亮氨酸是支链氨基酸 (BCAA),在调节能量稳态和营养代谢中发挥关键作用。图 6a生存分析显示,高 BCAA 水平与 KIRC 和 KIRP 的不良预后显著相关。且大多数肾癌患者都出现各种BCAA代谢基因的体细胞拷贝数变异(CNV)丢失(图6b)。BCAA 表达水平和 1627 个转录因子 (TFs) 表达水平之间的相关性分析显示,转录因子PPRA与 BCAA的相关性最显著(图 6c)。图6d中的BCAA 代谢基因的转录因子基序富集分析结果显示,PPRA结合基序在48个BCAA分解代谢基因的启动子中富集。总的来说,这些结果表明 PPARA 的低表达可能通过下调 BCAA 分解代谢基因引起BCAA积累,导致肾癌预后不良。为验证这一推论,研究人员对野生型小鼠和 PPARA 敲除小鼠进行差异表达分析,结果显示大多数 BCAA 分解代谢基因在 PPARA 敲除小鼠中被下调,且这些基因富集与细胞周期相关通路(图6e-f)。
总结
文章利用TCGA中的泛癌数据开发了一种基于个体样本中基因表达水平排名的个体化通路活性计算 (IPAM) 的新方法。IPAM 精确量化了泛癌分析中每个通路的活性水平,表现出了优越的癌症分类和患者预后预测性能。基于该算法,研究人员证实了代谢通路在癌症通路失调中的主导作用,并确定了特定通路失调的驱动因素。
参考文献
Ke X, Wu H, Chen YX, Guo Y, Yao S, Guo MR, Duan YY, Wang NN, Shi W, Wang C, Dong SS, Kang H, Dai Z, Yang TL. Individualized pathway activity algorithm identifies oncogenic pathways in pan-cancer analysis. EBioMedicine. 2022 May;79:104014. doi: 10.1016/j.ebiom.2022.104014. Epub 2022 Apr 26. PMID: 35487057.