胰腺导管腺癌粘蛋白生信分析新思路
今天小编给大家带来一篇最新发表在Clinical Cancer Research上关于胰腺导管腺癌粘蛋白分析的文章,该杂志最新影响因子为12.531,中科院分区大类:医学 1区,小类:肿瘤学 1区。这篇文章从粘蛋白角度出发,深入浅出阐析了粘蛋白及其剪接变异体是如何影响胰腺导管腺癌亚型分类和病人生存,让我们一起来学习吧!
前言
胰腺导管腺癌(Pancreatic ductal adenocarcinoma, PDAC)作为恶性程度最高的癌症之一,其侵袭性高,进展快。PDAC病人常因对治疗不响应而预后差,5 年生存率约为 8%。目前临床上仍缺乏对PDAC正确的亚型认识以及有效的预后预测标志物。粘蛋白在PDAC中的研究近几年被广泛提及,然而这些研究缺乏对粘蛋白家族的全面分析。作者在本研究中确认了基于粘蛋白表达的的四种PDAC表型,这四种表型具有不同的生物学特征和预后特征。作者发现并验证了粘蛋白剪接变异体可作为PDAC病人有效的的预后预测标志物,是临床上潜在的治疗靶点,同时作者证明了在分析PDAC转录组数据时,矫正由样本肿瘤细胞比差异带来的表达偏向性的重要性。
数据来源
(1)TCGA组:148例PDAC样本,收集于TCGA公共数据库;
(2)ICGC组:67例PDAC样本,收集于ICGA公共数据库;
(3)验证组:17例PDAC样本,收集于内布拉斯加州医学中心的自测数据。
结果解读
肿瘤细胞比对粘蛋白基因表达的影响
肿瘤细胞比未矫正前TCGA PDAC数据集中粘蛋白基因的表达和聚类
根据 TCGA的ABSOLUTE Purity算法打分,样本被分为肿瘤细胞占比高和低两组。作者首先在TCGA的这两组样本中评估了在特定细胞类型中特异性表达的基因,包括:amylase 2A(胰腺腺泡细胞), CD45(免疫细胞), cytokeratin 19(上皮细胞),leptin(脂肪细胞),mesothelin(基质细胞)。结果表明肿瘤细胞占比高的样本和肿瘤细胞占比低的样本,其细胞构成比之间存在差异。
接着,作者在肿瘤细胞占比高的样本和低的两组样本比较了粘蛋白家族基因的表达,结果表明粘蛋白家族基因在这两组样本间存在显著差异。通过聚类分析,这些粘蛋白家族基因被分为四组,分别是MUC19,MUC1/3/12/13/17/20, MUC6/15/22和MUC2/4/5AC/5B/16/21。而根据这四组基因的表达,病人样本被聚类为5组,作者选择肿瘤细胞占比高的病人样本进行生存分析,结果表明这5组病人间总生存率存在显著差异(Wilcoxon p=0.05)。
图1. 肿瘤细胞比未矫正前TCGA PDAC数据集中粘蛋白的表达和聚类
ICGC PDAC数据集中粘蛋白基因的表达和聚类
作者同样在ICGA数据库中收集到的67例PDAC样本中评估了粘蛋白家族基因的表达,通过聚类分析,这些粘蛋白家族基因被分为四组,分别是MUC12/22,MUC4/15/16/21,MUC3A/6/19和MUC1/2/5AC/5B/13/17/20。而根据这四组基因的表达,病人样本被聚类为5组,生存分析结果表明这5组病人间总生存率存在显著差异(Wilcoxon p=0.02)。
图2. ICGC PDAC数据集中粘蛋白的表达和聚类
肿瘤细胞比矫正后TCGA PDAC数据集中粘蛋白基因的表达和聚类
由于粘蛋白仅由恶性肿瘤上皮细胞表达,因此作者认为评估每个患者的粘蛋白转录水平时需要考虑样本中肿瘤细胞的比例。作者将TCGA组中每个样本归一化后的粘蛋白家族基因表达水平除以其各自的ABSOLUTE Purity算法打分,从而矫正肿瘤细胞占比不均衡。
经过矫正后,作者重新评估了粘蛋白家族基因的表达,通过聚类分析,这些粘蛋白家族基因被分为四组,分别是MUC7/12/17,MUC1/3/13/19/20,MUC6/15/22和MUC2/4/5AC/5B/16/21,而根据这四组基因的表达,病人样本被聚类为5组,生存分析结果表明这5组病人间总生存率存在显著差异(Wilcoxon p=0.03)。
图3. 肿瘤细胞比矫正后TCGA PDAC数据集中粘蛋白的表达和聚类
作者在这部分结果中,评估了肿瘤细胞比矫正前后PDAC样本中粘蛋白基因的表达,以及其对病人生存的潜在影响,作者认为细胞构成比不同的样本无法直接横向比较粘蛋白基因的表达,因此作者选择矫正后的粘蛋白家族基因表达进行下一步分析。
基于粘蛋白基因表达水平的PDAC亚型
粘蛋白家族基因的主成分分析
基于斯皮尔曼相关性,作者对PDAC样本的粘蛋白家族基因进行主成分分析。作者首先比较了TCGA样本未矫正数据的PCA和ICGC 样本的PCA,在确认了这两组数据的主成分显著重叠后,作者在TCGA样本矫正后的粘蛋白基因表达数据中进行主成分分析,计算出4个显著的主成分,解释度达70%,同时作者筛选了在PC1中载荷量绝对值大于0.5,在PC2/PC3/PC4中载荷量绝对值大于0.3的粘蛋白基因。作者进一步筛选了分别与四个PC显著正相关的基因,并进行通路富集分析。最终结果表明,PC1的粘蛋白基因与免疫激活相关,PC2的粘蛋白基因与肿瘤进展侵袭相关,PC3的粘蛋白基因与腺泡损伤以及胰腺炎相关,而PC4的粘蛋白基因与抗炎和上皮内瘤样病变进展相关。
图4. 粘蛋白家族基因的主成分分析
(2)基于粘蛋白基因表达水平的PDAC亚型和生存
基于朴素贝叶斯分类算法,作者分别评估了四个主成分中的黏蛋白基因对PDAC样本亚型的分类能力,并绘制了ROC曲线(AUC=0.9648, 0.9971, 0.8833, 0.8529)。作者进一步探究了基于黏蛋白基因表达的四种PDAC亚型之间病人的生存差异,对于每种PDAC亚型的病人样本,取相应的黏蛋白基因表达高低排序前25%的样本(High PC)和后25%的样本(Low PC)比较,PC2和PC3亚型的患者高低分组之间的生存没有显著性差异,而PC1和PC4亚型的患者高低分组之间的生存具有显著性差异。
图5. 基于粘蛋白基因表达水平的PDAC亚型和生存
作者在这部分结果中,确定了基于粘蛋白基因表达水平的PDAC亚型,分别是免疫激活相关亚型,肿瘤进展侵袭相关亚型,腺泡损伤以及胰腺炎相关亚型,抗炎和上皮内瘤样病变进展相关亚型。
PDAC病人生存相关的黏蛋白基因剪接变异体
作者评估了单个黏蛋白基因表达与PDAC病人生存的相关性,然而缺乏显著性,因此作者进一步考虑了黏蛋白的剪接变异体与PDAC病人生存之间的相关性。作者将TCGA 组PDAC病人样本的原始RNA-seq数据与Ensembl 94 GRCh38 cDNA参考转录本比对,得到黏蛋白的剪接变异体,并基于其表达高低绘制病人生存曲线。作者共发现了6个黏蛋白剪接变异体的高表达与PDAC病人更好的生存相关,6个黏蛋白剪接变异体的高表达与PDAC病人更差的生存相关。
图6. PDAC病人生存相关的黏蛋白剪接变异体
MUC4-sv-215和MUC13-sv-203的验证
作者选择了与PDAC病人较差预后相关的MUC4-sv-215和较好预后相关的MUC13-sv-203这两个剪接变异体在独立数据集中进行验证。为了矫正样本的肿瘤细胞占比,作者选取了与ABSOLUTE Purity算法打分最相关的基因,分别是ESRP2(Spearman’s rho=0.6191, p<0.001),PTK6(Spearman’s rho=0.7682, p<0.001)和MAGEH1(Spearman’s rho=-0.6570, p<0.001),样本的肿瘤细胞占比基于这三个基因的拷贝数计算,最终样本被分为肿瘤细胞占比高样本(n=15)和肿瘤细胞占比低样本(n=2)。由于缺乏具体的ABSOLUTE Purity算法打分,数据无法进行归一化,所以作者选取了肿瘤细胞占比高的样本进行下一步的验证。分别根据MUC4-sv-215和MUC13-sv-203的表达高低,被分为两组的样本总生存之间存在显著差异(p=0.0375和p=0.1048),结果表明这两个黏蛋白剪接变异体与PDAC病人的生存显著相关,是有效的预后靶点。
图7. MUC4-sv-215和MUC13-sv-203的验证
作者发现单个黏蛋白基因表达与PDAC病人生存之间缺乏显著的相关性,进而评估了黏蛋白剪接变异体与PDAC病人生存之间的相关性,最终确认了MUC4-sv-215和MUC13-sv-203,并成功验证。
小编总结
近年来,黏蛋白基因在PDAC中的表达和功能的研究被提出,然而这些研究局限于单个黏蛋白基因的表达。该文章从黏蛋白家族基因出发,全面分析并挖掘了黏蛋白家族基因panels,发现了基于黏蛋白基因表达的PDAC亚型分类,并挖掘了与 PDAC病人预后相关的黏蛋白剪接变异体。同时,作者也提出了在分析PDAC转录组数据时,矫正由样本肿瘤细胞比差异带来的表达偏向性的重要性,这也是本文的创新点。然而小编认为,该文章美中不足的是,对“基于黏蛋白基因表达的PDAC亚型分类”和“与PDAC病人预后相关的黏蛋白剪接变异体”这两块研究内容的衔接并不明显,以及出现少许的图文不符等编稿错误。总的来说,该文章对想研究癌症粘蛋白基因的读者来说具有启发意义,希望大家一起学习研读!