今天要给大家介绍一篇今年4月20日发表在Nature Communications上的文章,描述的是泛癌中年龄相关多组学数据综合分析。
文章背景
年龄是癌症最重要的危险因素,因为癌症的发病率和死亡率随着年龄的增长而增加。然而,肿瘤的分子改变在不同年龄的患者之间的差异仍未被探索。在这里,使用来自TCGA的数据,作者全面地描述了不同癌症类型中与患者年龄相关的基因组、转录组和表观遗传学变化。
研究数据:
本研究使用公开的TCGA数据,可以从NCI’s Genomic Data Commons portal [https://portal.gdc.cancer.gov/], TCGAbiolinks (version 2.14.1)和Broad GDAC Firehose [http://gdac.broadinstitute.org/]中获得。突变注释格式(MAF)文件从TCGA MC3项目下载[https://gdc.cancer.gov/about-data/publications/mc3-2017]。已知的癌症驱动基因列表从第91版COSMIC数据库[https://cancer.sanger.ac.uk/cosmic],Lawrence et al的文章[https://doi.org/10.1038/nature12912]和TCGA Pan-Cancer研究[https://doi.org/10.1016/j.cell.2018.02.060]中汇编而来。致癌信号通路数据来自Sanchez-Vega [https://doi.org/10.1016/j.cell.2018.03.035]等人。从Martincorena等人的研究中[https://github.com/Crick -CancerGenomics / ascat / tree / master / ReleasedData / TCGA_SNP6_hg19]获得了由ASCAT生成的TCGA肿瘤的等位基因特异性拷贝数,肿瘤倍性,肿瘤纯度,GI评分和WGD状态。
文章结果:
一、年龄与基因组不稳定性(GI)、杂合性丧失(LOH)和全基因组复制(WGD)之间的关联
(1)为了深入了解患者年龄在肿瘤体细胞遗传图谱中的作用,作者评估了TCGA数据中患者年龄和肿瘤基因组特征之间的关联 (表1)。导出GI分数后,使用多元线性回归校正性别、种族和癌症类型,我们发现在泛癌症数据中GI评分随着年龄的增加而增加(adj.R-squared = 0.35, p value = 5.98 × 10−7)(图1a)。接下来,我们应用简单的线性回归来调查每种癌症类型的GI评分与年龄之间的关系。与临床变量有显著相关性的癌症类型(adj. p value < 0.05)被进一步调整。作者发现,在7种癌症类型中,年龄与GI评分之间存在显著的正相关(adj. p value < 0.05)(图1b)。与GI评分最显著正相关的癌症类型是低级别胶质瘤、卵巢癌、子宫内膜癌和肉瘤。
(2)基因组杂合性缺失(LOH)是指一个亲本等位基因的不可逆丢失,导致等位基因失衡,导致细胞在各自基因的另一个剩余等位基因上产生另一个缺陷。为了调查患者的年龄和杂合性缺失之间是否存在关联,作者定量了基因组杂合性缺失的百分比。通过简单线性回归,我们发现年龄和全癌百分比基因组LOH之间存在显著的正相关(p value = 1.20 × 10−21)。然而,这种关联在多元线性回归分析中不再显著(adj.R-squared = 0.32, p value = 0.289)(图1c)。因此,这种关联可能是癌症类型特异性的。然后,作者对每种癌症类型的年龄和基因组LOH百分比进行了线性回归拟合。(图1 d)。
(3)WGD在增加肿瘤适应潜能方面很重要,并与不良预后有关。作者用logistic回归研究了年龄与WGD之间的关系。在泛癌分析中,使用多元逻辑回归模型去解释性别、种族和癌症类型,作者发现WGD发生随着年龄的增长会有小概率增加(p value = 3.84×10-4)(图1 e)。对于单个癌症具体分析中,作者在卵巢癌和子宫内膜癌中发现了显著的正相关(p 值分别为4.68 × 10-4和0.049)(图1e)。
表1 :TCGA癌症类型摘要以及每次分析中使用的样品数量。
图1:癌症患者的年龄与基因组不稳定性(GI)评分,基因组杂合丢失率(LOH)和全基因组重复事件(WGD)之间的关联。
二、与年龄相关的体细胞拷贝数(SCNA)改变
(1)作者使用GISTIC2.0来识别反复改变的SCNA。通过计算出SCNA得分来表示如在肿瘤中发生的SCNA水平。对于每种肿瘤,SCNA得分在三个不同的水平上计算,分别是局灶水平,染色体臂水平和染色体水平,总分则由这三个水平的总和计算得出。作者使用简单的线性回归来确定年龄与SCNA总体评分、染色体/染色体臂的SCNA评分和局灶的SCNA评分之间的关联。(图2 a、b、c)
(2)作者确定了25种癌症随着年龄的增长,染色体臂丢失会越来越频繁。通过GISTIC2.0识别的每种癌症类型的染色体臂得失构建了逻辑回归模型。年龄与染色体臂得失之间的显着相关性分别示于图2d、e(adj. p value <0.05)。热图分别表示LGG和UCEC中的染色体臂拷贝数变化。(图 2f、g)
图2:癌症患者的年龄与体细胞拷贝数变化(SCNA)之间的关联。
(3)作者进一步检查了与年龄相关的反复出现的局灶性SCNA。应用类似的逻辑回归,作者确定了与每种癌症类型的患者年龄相关的反复出现的局灶性SCNA。总的来说,作者发现了113个与年龄相关的重要区域,包括10种癌症类型中的67个获得性染色体臂和9种癌症类型中的46个损失性染色体臂(adj. p value <0.05)(图 3a)。根据手臂水平的结果,发现子宫内膜癌的重要区域数量最多,其次是卵巢癌(图 3b、c)。
(4)为了进一步研究这些SCNA的影响,作者使用Pearson相关性研究了具有两种数据类型的肿瘤的SCNA与基因表达之间的相关性。81个先前鉴定的癌症驱动基因表现出在至少一个癌症类型有至少一个与年龄显著相关的聚焦区,并显示SCNA和基因表达之间的显著相关性(adj. p value<0.05)(图 3d)。图e展示了拷贝数变化对LGG中CDKN2A、OV中MYC、UCEC中CREBBP和RIT1基因表达的影响。
图3:癌症患者的年龄与病灶水平SCNA之间的关联。
三、癌症中与年龄相关的体细胞突变
作者使用校正性别、种族和癌症类型后的多元线性回归模型,证实了年龄和突变负荷(体细胞非沉默SNVs和插入和缺失)之间的正相关(adj.R-squared=0.53, P值=1.41 × 10-37)(图 4a)。作者观察到了来自年轻子宫内膜癌患者的高比例超突变肿瘤(每个外显子组> 1000个非沉默突变)。 在年龄小于等于50岁的年轻患者中,有38个肿瘤中有13个(34%)是高突变肿瘤,而在老年患者的383个肿瘤中,只有13个是高突变的肿瘤(占11%)(Fisher's正反, p value = 0.0003)(图4b)。使用多元logistic回归分析,作者发现微卫星不稳定性高与年轻的子宫内膜癌有关(p value = 0.0264)(图4c)。癌症中超突变的另一个原因是DNA聚合酶校正缺陷,这是由于聚合酶ε(POLE)或聚合酶δ(POLD1)基因的突变引起的。作者发现POLE(p value = 0.0243)和POLD1(p value = 0.0177)的突变在更年轻的子宫内膜癌患者中更普遍(图4d)。尽管对癌症的突变负荷随年龄增长的增加进行了充分的研究,但在不同癌症类型中,特定基因的突变率随年龄的变化在很大程度上是未知的。 为了更好地理解这一点,作者进行了逻辑回归以研究随着年龄增长而或多或少会发生突变的基因。我们首先研究了年龄与泛癌基因突变之间的关联。 在对性别,种族和癌症类型进行多重逻辑回归校正后,发现IDH1(adj. p value = 1.73×10-10)和ATRX(adj. p value = 1.60×10-5)与年龄呈负相关。 另一方面,PIK3CA的突变在老年人中更为常见(adj. p value = 0.0139)(图4e)。接下来,我们在24种癌症类型中(至少有100个样本),以特定于癌症的方式鉴定出显示出与年龄相关的突变率差异的基因(表1)。 使用logistic回归分析,我们确定了12种癌症类型中的31种突变,这些突变根据患者年龄而增加或降低(adj. p value <0.05)(图4f)。携带IDH1突变的患者通常比IDH-WT患者具有更长的生存时间。先前的研究也报道IDH1突变经常与ATRX和TP53突变同时发生,这三个基因的突变在没有EGFR突变的神经胶质瘤中更为普遍。而作者也发现EGFR突变在老年低度神经胶质瘤患者中更为常见(adj. p value = 4.13×10-7)(图4g)。
图4:癌症患者的年龄与体细胞突变之间的关联。
四、致癌信号通路中年龄相关的改变
作者使用了先前TCGA研究的数据,该研究已全面概括了癌症中10个高度改变的信号通路。通过对性别,种族和癌症类型进行逻辑回归校正,作者确定了十个信号通路中的五个与年龄呈正相关(adj. p value <0.05),表明这些通路中的基因在老年患者中更频繁地被改变(图5a)。接下来,作者应用逻辑回归研究了年龄和至少包含100个样本的癌症类型的致癌信号改变之间的癌症特异性关联。作者在15种癌症类型中确定了28个有意义关联(adj. p value <0.05)(图5b)。在五种癌症类型中,Hippo和TP53信号通路的改变与年龄显著相关,有正相关,也有负相关(图5b)。与作者之前泛癌分析一致,细胞周期、NOTCH和WNT信号通路分别在三种癌症均显示随着年龄的增加而增加(图5b)。 作者发现低度神经胶质瘤的细胞周期途径随着年龄的增长而增加(p value = 0.00035)。 这主要是由于年龄较大的患者CDKN2A和CDKN2B缺失增加以及CDKN2A的表观遗传沉默所致(图5c)。 另一方面,由于TP53基因突变,年轻患者中TP53途径的改变更为明显(adj. p value = 2.63×10-8)(图5c)。
图5:癌症患者年龄与致癌信号通路改变的关系
五、年龄相关基因表达和DNA甲基化改变
作者还发现了年龄差异显着的甲基化差异基因(DMG)(adj. p value <0.05),并且大多数癌症类型的age-DEGs和age-DMGs数量一致(图6a)。 值得注意的是,女性生殖器官的癌症,包括乳腺癌,卵巢癌和子宫内膜癌,在DEG和DMG中数量最多。作者确定了DEG和DMG之间的重叠基因,发现它们中的大多数是随着年龄增长甲基化程度和表达降低的基因,以及随着年龄增长而甲基化程度降低和表达增加的基因,作者举出了LGG和BRCA作为例子展示(图6b、c)。 作者进一步检查了4组基因之间的甲基化与表达之间的相关系数,比较了4组基因:1)DMGs和DEGs之间重叠的基因,2)仅是DMGs,3)仅是DEGs,4)其他基因。 我们发现,与其他基因相比,DMGs和DEGs之间重叠的基因在DNA甲基化和表达之间具有最大的负相关性(图6d),这表明癌症中与年龄相关的基因表达发生了变化,至少部分地被DNA甲基化所抑制。接下来,作者进行了基因集富集分析(GSEA)(图6e)。
图6:癌症中与年龄有关的基因表达是由与年龄有关的甲基化控制的。
文章小结
作者发现来自老年患者的肿瘤在基因组不稳定性、体细胞拷贝数改变(SCNAs)和体细胞突变方面总体增加。年龄相关的体细胞拷贝数改变和体细胞突变在不同癌症类型的几个癌症驱动基因中被确认。与年龄相关的基因组差异最大的是胶质瘤和子宫内膜癌。作者发现了与年龄相关的全局转录组变化,并证明这些基因在一定程度上受年龄相关的DNA甲基化变化的调节。这项研究为研究癌症中与年龄相关的变化提供了全面的,多组学的视角,并强调年龄是癌症研究和临床实践中要考虑的重要因素。