癌症分型一直是生信的研究热点,在各种期刊上大家都可以看到癌症分型类的文章。今天小编给大家带来的这篇文章是今年6月30日发表在Nature Genetics(IF=41.307)上的结直肠癌分型文章,作者通过结肠癌单细胞数据,专注于上皮细胞,对结直肠癌CMS分类进行了细化。文章内容丰富,快来和小编一起看看作者是如何将癌症分型发表在41分神刊上的吧!
一.研究背景
结直肠癌(CRC)是一种异质性疾病。基于bulk转录组基因表达谱,国际联盟在2015年确定了四种结肠直肠癌的共识分子亚型(CMS)分类(CMS1-4),分别以丰富的免疫浸润、典型WNT和Myc激活、代谢失调和间充质纤维化反应为特征,并在今后的多个研究中反复出现。由于bulk转录组测序测量组织内基因的总表达,细胞的转录状态以及细胞比例和肿瘤微环境的相互作用是模糊的。因此,作者通过分析了63例患者的373,058个单细胞转录组(scRNA-seq),重点关注49,155个上皮细胞。基于不同的基因表达、DNA拷贝数和基因调节网络,作者确定了恶性细胞的普遍存在的遗传和转录组二分类,细化了CRC的CMS分类,并在bulk转录组中概括了这些亚型。
二.主要结果
1.细胞类型注释
作者scRNA-seq数据进行过滤,以丢弃低质量的细胞和双细胞,定义了11种主要的细胞类型。为了识别上皮细胞亚型,作者使用DUBStepR对CRC-SG1队列的上皮细胞进行从头聚类以进行特征选择,然后使用初始聚类之间的差异表达基因(DEGs)重新聚类细胞。其中一个cluster包含了正常样本的所有上皮细胞和少部分(23.4%)来自肿瘤样本的细胞,这少部分细胞为肿瘤样本中的正常上皮细胞;来自肿瘤样本的恶性细胞形成了患者特异性cluster,每个cluster都包括来自同一肿瘤不同部位的细胞(图2a)。因此,肿瘤上皮细胞形成的患者特异性cluster并不是批次效应,可能代表了患者之间真实的生物学差异。主成分分析(PCA)划分了两个不同的上皮亚群(图2b)。然后,作者将五个队列(189个样本,63例患者)结合起来,使用主成分划分的两个不同上皮细胞亚群间的DEGs对上皮细胞聚类分群,再次聚类出两种主要的肿瘤亚型iCMS2和iCMS3(下面简称i2和i3)(图2c)。
接下来作者使用inferCNV在所有5个队列的上皮细胞转录组中推断拷贝数变异(CNVs),并观察到:尽管iCMS2中存在大量的患者间差异,7pq, 8q, 13q和20pq频繁扩增,而1p, 4pq, 8p, 14q, 15q, 17p和18pq频繁缺失(图2d);相比之下,iCMS3的肿瘤细胞多为二倍体,或表现出不频发的和与iCMS2不一致的拷贝数改变。通过对CNV情况在UMAP图上进行可视化,也观察到i2和i3肿瘤的分离(图2e),这表明拷贝数的改变促成了CRC上皮转录组中观察到的二分类。然后作者将上皮单细胞表达谱转为伪bulk数据,通过DEseq2进行分组间上皮细胞的差异表达分析,确定了715个内在上皮性癌signature(图2f)。通过SCENIC推断347个转录因子的调控子的单细胞活性评分,作者使用这些评分对61例患者的上皮细胞进行聚类。同样的,两种上皮细胞亚型再次出现,且多种调控子在两组间存在显著差异(图2g、h)。
为了描述这两种恶性细胞亚群的不同转录组状态,作者将同一iCMS组内的715个iCMS标记基因取平均值(图2f),计算了i2和i3 metagene表达评分。作者发现metagene评分呈双峰分布,一种模式对应于i2样转录组,另一种模式对应于i3样转录组,支持不同的i2和i3上皮细胞状态。通过i2和i3 metagene评分,作者发现在63个肿瘤样本中,54个样本(86%)的超过80%细胞被优先定义为i2或i3。因此,在大多数肿瘤中,绝大多数细胞属于单一iCMS类型,混合肿瘤并不常见。进一步,作者通过转录组、CNV和调控子分析发现(图2i),一组微卫星稳定(MSS)的上皮细胞与微卫星高度不稳定(MSI-H)的细胞在i3簇中混合,表明i3_MSS更类似于MSI-H肿瘤,i2更类似于MSS肿瘤(图2j)。
2.在bulk转录组中进行分类及临床分子特征分析
作者接下来使用715个iCMS Marker基因对来自15个肿瘤数据集(TCGA、SG-Bulk和13个CMS队列数据集)的3,614个肿瘤bulk转录组进行了分类,并观察到类似的i2 signature高或i3 signature高的两组(图3a)。采用NTP(nearest template prediction)算法,在Q值< 0.05时,47%的肿瘤样本被归为i2,42%的肿瘤样本被归为i3(图3b)。这表明,固有的上皮signature可以有效地识别bulk肿瘤转录组中的上皮亚型。
接下来,作者详细分析了iCMS亚型的临床和分子特征(图3a-c)。与单细胞的结果一致,作者发现几乎所有的微卫星高度不稳定(MSI-H)肿瘤都被归为iCMS3,iCMS3_MSS肿瘤亚组也被归为iCMS3。CMS1(97%)和CMS3(98%)肿瘤以i3为主,而CMS2(96%)肿瘤以i2为主。然而,CMS4肿瘤可以是i2或i3,且比例相等(图3c、d)。
通过以单细胞中主要细胞(免疫细胞、上皮细胞、内皮细胞、成纤维细胞)的Marker基因表达对bulk样本分层(图3e),作者观察到肿瘤根据iCMS、MSI状态和bulk CMS分类进行分组,这表明iCMS、MSI和CMS共同决定了结直肠癌的分子分类。通过生存分析显示(图3f、g),CMS4的无复发生存期(RFS)较差,RFS较差是CMS4/iCMS3亚组的一个特殊特征,这种差异也体现在总生存率上。i3型癌症复发后的生存期较i2型更差,总体生存期也是如此。
3. 基因组特征和功能与分子分型的关联
作者基于来自TCGA和SG-Bulk队列的659个肿瘤样本研究了iCMS3_MSI、iCMS3_MSS和iCMS2_MSS肿瘤的拷贝数结构,作者发现i3为微卫星高度不稳定(MSI-H)和二倍体肿瘤细胞或微卫星稳定(MSS)肿瘤,其拷贝数变化小于i2 (图4a)。TP53突变在i2型MSS肿瘤中比在i3型MSS肿瘤中更普遍,这可能是导致前者整体基因组不稳定的原因(图4c),这与单细胞inferCNV的结果一致。
肿瘤突变负荷(TMB)在i3_MSI肿瘤中较高,在i3和i2 微卫星稳定(MSS)肿瘤中相似(图4b)。在微卫星高度不稳定(MSI-H)肿瘤中,较高的TMB意味着更多的突变基因。即使具有相似的TMB,在MSS组中,i3肿瘤富集KRAS和PIK3CA突变,而i2肿瘤富集APC和TP53突变(图4c)。
作者认为i2和i3上皮细胞之间的一些表达差异可能直接归因于DNA拷贝数的差异。在715个DEGs中,有382个与上述i2肿瘤中普遍扩增或缺失的染色体臂相吻合(图4d)。i2肿瘤中上调的基因在MYC和E2F靶基因上富集(图4e),与此一致,由SCENIC定义的MYC调控子在i2上皮细胞中表达较高(图2h);i3细胞中基因上调与上皮相关间充质转化(EMT),炎症途径和交汇代谢紊乱相关(图4e)。
4.不同亚型间癌症通路的差异
在这一部分,作者分析了在结直肠癌中常见的失调的信号通路:WNT, MAPK和TGF-beta(图5a-c)。WNT通路内的基因在i2 bulk肿瘤转录组中倾向于上调,可能与它们在i2上皮细胞中的上调有关(图4e), 这也可能是由于调节WNT信号的转录因子(TCF7, ASCL2)活性增加。
接下来,作者评估了在癌症中与MAPK通路上调相关的改变。i3型癌症的KRAS、PIK3CA和BRAF突变发生率更高(图5b)。BRAF V600第1类突变仅见于i3型癌症,KRAS第3外显子突变在i3型癌症中富集(图5d、e)。TGF-β信号的上调在i3型癌症中更为显著。TGF-β信号通路中的基因,包括SMAD4,在i3型癌症中突变频率更高(图5c)。在i3肿瘤中SMAD2/3/4的表达增加,但与TGF-β活性相关的基因signature在i3和i2肿瘤细胞中没有差异。
5. 肿瘤微环境的组成
为了比较不同肿瘤分型的细胞类型丰度,作者从CRC-SG1单细胞数据中确定了9种主要成纤维细胞、免疫细胞和内皮细胞类型的标记基因,并通过对bulk转录组中每种细胞类型的Marker取平均值来计算每种细胞类型的基因表达评分。作者在微卫星高度不稳定(MSI-H)肿瘤中观察到较高的NK细胞评分,在纤维化(CMS4)肿瘤中观察到较高的成纤维细胞、内皮细胞和单核细胞/经典树突状细胞(McDC)评分(图6a)。
接下来,作者研究了肿瘤上皮细胞与免疫细胞、内皮细胞和成纤维细胞之间的信号传导(图6c、d)。作者发现在i2中更强的差异相互作用包括从上皮肿瘤细胞到上皮肿瘤细胞(自分泌)和成纤维细胞(旁分泌)的EGFR-EGFR信号传导。上皮细胞的基因集富集分析(GSEA)发现了i3细胞中上调多个免疫通路,通过计算三个与炎症相关的主要通路GSEA评分(图6e),作者发现MSI-H和纤维性(CMS4)肿瘤中炎症相关通路的表达较高。
下面作者假设iCMS分类可以进一步证实微卫星稳定(MSS)肿瘤中免疫活性的增加。在TCGA转录组中,作者定量了两种具有抗肿瘤反应和效应功能的T细胞程序(“CXCL13 T细胞”和“细胞毒性”程序)的表达,确定这两种T细胞程序在微卫星高度不稳定(MSI-H)和MSS CRC之间具有不同的活性(图6f)。综上,作者的单细胞和bulk数据分析表明,iCMS3_MSS是MSS CRC的一个独特亚群,与MSI-H肿瘤相似,免疫激活增加,T细胞和髓系细胞浸润和抗肿瘤细胞毒性特征更高。
6.CRC的IMF细化分类
综合上述的结果,作者提出了一个基于上皮细胞状态(I)、微卫星状态(M)和纤维化(F)这三个生物学层的对CMS分类的改进,称为“IMF”(图7)。IMF将肿瘤分为五类:iCMS2_MSS_NF、iCMS2_MSS_F、iCMS3_MSS_NF、iCMS3_MSS_F和iCMS3_MSI。五类样本在生存状态及药物响应等均存在差异,对CRC的研究起源、演变以及对治疗的反应具有重要意义。
至此,这篇文章就介绍完啦,是不是收获颇丰?总结起来,这篇文章和我们常看到的癌症分型文章在结构上并无太大差异:第一步聚类分群;第二步多数据集验证;第三步分析不同亚型间基因组、转录组、微环境、生存及用药差异。为什么大佬可以发41分呢?小编认为首先得益于作者超大的数据量,我一直相信一句话:数据的广度可以提升文章的高度。其次作者使用的分型特征不局限于转录组表达数据,结合MSI状态等使分群更加可靠!做癌症分型的小伙伴快快学起来!