基因组不稳定性会导致癌症的种族差异?
今天给大家分享一篇即将在Theranostics杂志(IF:11.556)发表的文章。这篇文章首次发现肝细胞癌的基因组不稳定性与亚洲人和欧洲人之间的种族差异有关,为理解不同类型癌症的种族差异提供了一个最好的例子。
一、研究背景
肝细胞癌(HCC)是世界上最致命的癌症类型之一,其病因多种多样。HCC的主要危险因素包括病毒感染、酒精摄入以及环境暴露(如黄曲霉毒素),这些因素在世界的不同地理区域之间存在明显差异。先前已经有研究表征了HCC的多种分子事件和转录亚型。但是,HCC基因组的整合分析和跨队列的种族比较仍然缺乏研究。
本篇文章首先整合了来自世界各地五个大队列的1349名HCC患者的基因组,并应用多种统计方法来识别驱动基因。随后,使用TCGA队列对亚洲人和欧洲人的HCC基因组和转录组进行了系统的比较。研究发现了29个新的候选驱动基因,其中许多基因是驱动晚期肿瘤进展的罕见肿瘤抑制基因。通过多模型整合分析,作者发现亚洲人有更高的基因组不稳定性以及一系列分子事件:包括肿瘤突变负担(TMB)、拷贝数改变以及两个种族之间明显分离的转录组亚型。作者还发现了一种亚洲人种特有的转录组亚型,该亚型具有多个种族丰富的基因组改变,特别是16号染色体的缺失。通过整合多模型信息,研究者发现亚洲患者的生存模型比欧洲患者的预后预测要好得多,这表明亚洲人种在精准医疗应用方面具有更高的潜力。总之,作者首次发现了不同种族间的HCC基因组差异,并强调了不同种族背景的HCC差异疾病生物学的重要性。
二、结果
1.TCGA队列临床表型的种族差异
为了系统的研究HCC的种族差异,本文使用的TCGA队列包括来自两个种族(161名亚洲患者和187名欧洲患者)的相似数量的多层基因组数据,是进行种族比较的理想队列。为了进行系统的比较,作者重新处理了从基因组数据共享(GDC)门户网站下载的原始测序数据,并跨多个层次对两个队列进行了比较。比较两个队列的临床变量,最显著的差异是病毒状态(p = 6.42e 31,图1A)。大约60%的亚洲患者是乙肝病毒阳性,而只有25%的欧洲人是病毒携带者。此外,欧洲患者中女性患者比例较高(44% vs 21%, p = 7.79e 06,图1B),且诊断时年龄较大(中位年龄66岁vs 55岁,p = 3.66e 12,图1C)。
2.不同种族背景的driver频率相似,但亚洲人的TMB更高
为了评估基因组在多个层次上的种族差异,作者首先比较了两个种族背景之间的肿瘤突变负担(TMB),发现亚洲患者的TMB显著更高(p = 9.90e 03,图1D)。亚洲人较高的TMB提出了一个有趣的问题: 两组研究是否在其他分子表型上也存在差异。为了识别driver列表,作者收集了五大队列的肝癌基因组包括:癌症基因组图谱(TCGA, n = 373), 国际癌症基因组协会(ICGC)数据库(n = 270 来自日本LIRI-JP数据集, n = 244来自日本LINC-JP数据集,n = 242来自法国LICA-FR数据集),以及韩国队列(n = 231)。利用大样本量(n = 1349),作者整合了三种不同的方法,确定了62个肝癌的候选驱动基因。在62个候选driver中,33个基因(53%)与文献报道的driver列表重叠。最终,29个新的候选驱动因子被鉴定出来。之后作者利用公共队列中发现的driver基因,系统地比较了TCGA队列中亚洲和欧洲患者的driver频率。结果发现除了TP53和CDKN2A外,大多数driver的突变频率相似(图1E-F)。尽管两组人群的病因背景不同(如病毒状态),但亚洲人和欧洲人之间的driver基因谱相当相似。
3.肿瘤发生过程中突变过程的种族差异
作者使用deconstructSigs将突变分解为HCC中发现的已知突变特征(n = 10)。利用不同突变签名的贡献,作者将患者聚类为五个签名组(称为SG1-5,图2A)。SG1和SG2组以SBS5(clock like) 信号为主,在欧洲患者中富集(图2B-2D)。SG3组具有强马兜铃酸(即AA)特征(SBS22)和较高的TMB在亚洲患者中更为常见(图2A-B)。 SG4研究组的主要特征是SBS5,还有相当比例的SBS4(吸烟),以及其他特征的混合。SG5组具有更高频率的肝脏相关信号(SBS12和SBS16),也在亚洲患者中富集(图2A-B)。通过时间和克隆性分析,作者发现吸烟等外部暴露相关的签名在肿瘤发生的后期明显较低,而MSI和肝脏相关签名在肿瘤发生的后期比例较高。提示其在整个HCC发生和发展过程中发挥积极作用。
4.染色体CNV导致亚洲人有更高的基因组不稳定性
作者发现亚洲人的臂部SCNA水平更高(图2C, p = 0.00036)。在对临床变量和其他协变量进行控制后,臂部SCNA评分的种族差异仍然显著(p = 0.02)。将SCNA整体得分分解为单个染色体的贡献,得到11个组(4个扩增和7个缺失),其中,染色体16缺失和8q扩增在两个队列中以不同的频率发生改变,并且主要富集在亚洲人群中(图2D)。除了臂水平差异,作者还使用GISTIC算法比较CNAs时,尽管每个队列都存在私有峰,但队列间的景观在定性上保持相似(例如TERT和FGF19扩增和AXIN1缺失,图2E)。综上所述,在亚洲HCC患者中,多臂水平的CNV事件导致了显著更高的基因组不稳定性。
5.亚洲人特有的一种更具临床侵袭性的转录组亚型
这一部分作者探究了更高的基因组不稳定性是否会导致表型分化,特别是种族背景之间的转录组差异。作者首先使用非负矩阵分解(NMF),将TCGA中的亚洲和欧洲队列聚类为两个亚型(图3A),并使用SubMap比较亚型的相似性(图3B)。在两个队列中,作者都观察到一个亚组细胞周期上调(如G2M检查点),但正常肝功能的代谢通路下调(如胆汁酸代谢)(图3C-D)。尽管不同队列的基础分裂功能相似,但两组亚型仅对亚洲队列的总生存率进行了分层。根据亚分区中激活的通路,作者将亚簇命名为P(增殖)和M(代谢)。接下来,将这两个队列进一步划分为三个亚组,亚洲的增殖组(P)和欧洲的代谢组(M)进一步划分为两个亚组,匹配的亚组数量仍然是两个(图3B, 3E)。在亚洲人群中,P1亚型表现为EMT、炎症反应和血管生成通路的上调(图3C、3E),而P2亚型表现为未折叠蛋白反应(unfolded protein response, UPR)和MYC靶基因的11个基因的上调。欧洲人群的M1亚型和M2亚型的表型分化类似于P亚型和M亚型的基础表型分化,M1细胞周期活性更高,但代谢功能下调(图3C-D)。接着将亚洲人分成4个亚组,代谢组进一步分为M1/M2, 并且,M1/M2的差异类似于P1/P2的差异,M1具有更高的免疫相关通路表达和EMT。在比较来自亚洲的四种亚型和来自欧洲的三种亚型时,代谢组内的两个亚组(M1和M2)在两种种族背景之间匹配良好,并且还有一个亚洲人特有的额外亚组(P2)(图3B, 3E)。在所有的聚类分析中,亚洲患者的RNA亚组很好地分层了患者的总生存率,但欧洲患者没有(图3A)。将转录组亚型与临床和分子表型相关联,作者发现了一些临床表型,如甲胎蛋白(AFP)水平在P亚型中富集,CTNNB1驱动突变在M2亚型中富集(图3F)。
6.富含基因组变化的亚洲人被划分为转录组P2亚型
亚洲富集转录组亚型(P2)是最具侵袭性的亚型之一,具有最高的AFP水平和最低的生存率(图4A)。这就提出了一系列有趣的问题: 这种新的亚型有哪些特定的分子事件? 更重要的是,这些亚型的差异是否与种族差异相关? 这或许可以解释这种种族特异性亚型的起源? 为了比较P2和其他亚群的基因组事件,作者发现了一系列P2特有的基因组变化: 1)AXIN1突变频率显著更高(图3F, 4B), 2) SCNA强烈升高,CIN70评分水平最高(图4C)。将SCNA的整体水平分解为亚组时,作者发现P2的16号染色体缺失也显著更高(图4D),并倾向于与AXIN1突变共发生(图4B和4E, p值= 5.6e-12)。3) MYC靶蛋白和未折叠蛋白反应(unfolded protein response, UPR)的表达明显增加,表明内质网(ER)应激可能对细胞周期产生了响应。4)将转录组图谱分解为免疫组分时,结果发现P2和M2比其他免疫信号水平最低的亚型的免疫低得多,而P2的骨髓源性抑制细胞(MDSC)水平最高(图4F-G)。为了了解P2亚型是否也存在于其他亚洲队列中,作者检索了两个中国队列,在这两个队列中也发现了P2亚型,且P2亚型患者具有相似的表型,如AFP水平更高、总生存率较低、和16号染色体缺失频率更高。由于种族差异在驱动频率上非常小,但在CNAs中更强,接下来,作者将拷贝数事件与整个基因组的基因表达联系起来。正如预期的那样,大多数拷贝数变异作为顺式调控事件,积极影响基因组附近基因的表达(图4H)。并且,第16号染色体上的CNV倾向于影响亚洲队列中整个基因组的基因表达水平(图4H)。此外,P2亚型患者的差异表达基因(DEGs)与16号染色体缺失患者的差异表达基因(DEGs)在亚洲队列中高度相似(图4I)。除了16号染色体的缺失,一系列定义P2亚型的其他基因组事件似乎共同作用于定义P2亚型。例如,以前的研究报道SCNA评分较高的肿瘤往往在癌症类型中具有较低的免疫浸润,在这个HCC队列中也是如此(图4J, p = 0.0095)。包括16号染色体在内的较高的基因组不稳定性与P2低免疫浸润和高水平的MDSCs相关(图4E, 4H, 4J)。最后,作者绘制了跨越临床特征、基因组变化、转录组学和免疫表型等多个层面的P2特异性事件之间的关联网络,结果发现一个跨越多个层面的连接良好的网络,定义了P2亚型(图4K)。综上所述,基因组不稳定性的种族差异似乎驱动了基因组差异的集合,从而定义了亚洲特异性转录组亚型。
7.综合生存模型预测的亚洲患者的生存期更好
为了整理临床和分子特征来分层患者,作者从不同层次收集了多个变量,包括临床表型(如分期(n = 7),驱动基因(n = 12)和其他分子特征(n = 22)。由于肿瘤内异质性(ITH)越来越被认为是驱动患者临床结果的重要因素,但在HCC中还未被探索,作者制定了三个ITH指标: 1)晚期突变的百分比(pLM),计算亚克隆突变的比例; 2)突变-等位基因肿瘤异质性(MATH)评分,测量变异等位基因频率的分布; 3)基于亚克隆比例计算的香农s指数。为了选择能够对患者进行分层的变量,作者将随机森林模型应用于亚洲和欧洲队列以及联合队列(图5A)。结果发现可以将患者分层的许多变量在两个队列中是共享的(图5B)。当计算多层特征之间的相关性并分别绘制两个队列的相关网络时,作者发现多个特征之间存在很强的相关性(图5C-D)。虽然大多数特征在单变量Cox模型下能够显著分层患者(n = 17),但随机森林模型选择的一部分特征在单变量生存分析中不显著(图5C-D),提示这些变量与患者总生存率之间存在潜在的非线性关系。通过使用随机森林模型对这些变量的重要性排序,作者发现免疫特征(如MDSC)和驱动基因(如DOCK2)在患者生存中发挥非常重要的作用(图5E)。欧洲队列中ITH特征的高排名似乎反映了队列中所有变量的不良预后能力。为了验证亚洲人和欧洲人之间的预测模型是否不同,作者首先使用交叉验证方法评估了预测模型的准确性(图5A),并观察到亚洲人的预测准确性更高(图5F)。在亚洲队列中观察到的预测模型(即c指数)的精度更高(图5F)。当作者比较有P2亚型和没有P2亚型对亚洲队列的预测准确性时,发现排除P2后准确率显著下降,这表明种族差异确实有助于亚洲人有更好的预测(图5G)。综上所述,肝癌的种族差异不仅提供了一个更好的预测亚洲患者生存的模型,而且也表明了对亚洲肝癌更有效的精准医疗方案。
三、总结
随着组学数据的发展,种族差异的研究现已成为癌症基因组学的中心课题之一。通过比较亚洲和欧洲的组群,作者首次对HCC基因组进行了系统的比较,并在两个组群中发现了一系列基因组事件,尤其是较高的基因组不稳定性,似乎推动了亚洲人独特转录组亚型的进化和更好的患者预后预测。这篇文章系统地探究了HCC基因组不稳定性如何导致两组人群之间的种族差异,为理解不同类型癌症的种族差异提供了一个范本。
参考文献
Neslihan A. Kaya1,3 , Jianbin Chen1 , Hannah Lai1 , Hechuan Yang2 , Liang Ma2 , Xiaodong Liu2,15, Jacob Santiago Alvarez1, Jin Liu4 , Axel M. Hillmer5, David Tai6,7 , Joe Yeong Poh Sheng7,8 , Zheng Hu9, Yun Shen Chan10, Pierce K.H Chow11,12,13, Yuguang Mu3 , Torsten Wuestefeld1,3 , Weiwei Zhai1,2,14, *. Genome instability is associated with ethnic differences between Asians and Europeans in hepatocellular carcinoma.