早吖,各位打工人,美好的一天又开始了!快来跟小编一起学(mo)习(yu)新(he)知(hua)识(shui)吧。今天咱们来看两篇纯生信的文章,说是两篇,其实出处是同一个团队,他们去年在Int J Cancer(IF=5.2)杂志发表了一篇介绍单样本预测器的方法学文章,后来在此基础上增加了泛癌分析,今年十一月份在Briefings in Bioinformatics(IF=11.6)杂志又发了一篇文章。果然,柠檬树下只有我,羡慕嫉妒的话小编已经不想多说了,咱们直接看看作者都做了啥吧。
一个简单的背景介绍
作为肺癌中最常见的亚型,肺腺癌(LUAD)相关的文章咱们公众号之前也推过不少,所以病因病理之类的小编就不赘述了(这不是懒,而是对大家知识储备的足够信任,哈哈),简单说点跟今天的内容有关的哈。在TCGA中,LUAD可分为三种转录亚型——终末呼吸单位亚型(TRU)、近端增殖亚型(PP)和近端炎症亚型(PI)三种,TRU亚型的特征为:患者多无吸烟史、携带EGFR突变、肿瘤分期和增殖较低、患者预后得到改善;PI和PP(nonTRU)亚型则均与患者吸烟相关,并表现出高频的非靶向驱动突变、较高的增殖率和特定的形态学生长模式。在今天分享的研究中,作者利用基因表达谱开发了一种基于AIMS方法的单样本预测器(SSP)来对LUAD进行分型, SSP无需对样本进行任何预处理,具有平台独立性,且能够可靠地预测单个样本。
技术路线
作者获得了22个公开的基因表达数据集,对于每一个数据集,首先通过最近质心分类(NCC)方法为每个样本赋予一个亚型标签,然后将所有样本分为训练集(17个数据集)和验证集(5个数据集),利用基于AIMS (https://github.com/meoyo/trainAIMS)方法的SSP将训练集分别按照TRU/nonTRU(SSP2)和TRU/PI/PP(SSP3)这两种模型进行分类。利用这5个独立的验证数据集,作者分别评估了SSP模型在仅接受手术治疗和辅助治疗的患者中的预后表现,此外,研究还开发了相应的R包”CLAMS”,并用另外两个数据集测试了CLAMS在FFEP组织中的适用性。
结果分析
SSP2分类模型共包含18个基因对(36个基因),通路富集分析的结果表明它们主要富集在细胞周期等生物学过程,SSP3包含141个基因对(259个基因),这些基因富集到了细胞周期、细胞迁移和定位、细胞外基质等功能类,图2.B分别展示了它们和NCC分类基因的交集情况,占比都是50%左右。对SSP2分类结果的病理评估表明,87.5%以鳞片状生长模式为主的肿瘤属于TRU亚型,而在这两种亚型中,以乳头状生长模式为主的病例在TRU亚型中的占比要显著的高一些,表明了SSP分类与LUAD生长模式的相关型。以NCC分类结果为标准,在所有验证集中,SSP2的分类准确性为0.85,SSP3的准确性为0.81。
在验证集中,大约有1/7的样本,NCC和SSP2对它们的分类结果不一致,同分类结果一致的样本相比,在这一群组中,非吸烟和II期肿瘤患者的占比较高。为了进一步分析这些样本,作者根据两个分类器的结果将所有验证样本赋予TRU-TRU,TRU-nonTRU,nonTRU-TRU 和nonTRU-nonTRU标签。对增殖相关基因MKI67表达的分析表明,nonTRU-nonTR组比TRU-TRU组的增殖率更高。预后分析结果也表明,TRU-TRU患者的5年生存率高于nonTRU-nonTRU患者,而且NCC分类的TRU 亚型以及SSP2分类得到的nonTRU 亚型的生存模式与nonTRU-nonTRU患者相似(图3),这么一看,SSP2的分类结果好像更准确一些。
在接受手术治疗的I期患者中,SSP2预测的TRU患者组的OS和DMFS均显著高于nonTRU组(图4.A-B)。最后,作者开发了R包”CLAMS”,利用44例I期肺腺癌患者的FFPE RNA数据评估SSP2模型,通过层次聚类证实了分类结果。在TRU亚型中,71%的患者在5年后无转移,nonTRU亚型只有33%。此外,作者还做了生存分析,CLAMS可以很好的根据预后的好坏将患者分层,在另一个数据集中,也得到了同样的结果(图4.F-G)。
万物皆可泛
既然SSP可以用于肺腺癌,那其他癌型又差哪了呢?于是,工具有了,作者就开始用泛癌搞事情了,然后,一篇文章又发表了,此处请自动脑补表情包。
首先呢,作者从TCGA、GOBO、SCAN-B等公共数据库以及已有研究下载了40个数据集,涵盖了32种癌型,根据不同的数据类型,分别做了患者预后分析、肿瘤增殖分析和治疗反应预测分析(图5),这篇文章用的是CLAMS中的SSP2分类模型。
在有预后数据的14个数据集(包含12种癌型)中,除了LUAD外,浸润性乳腺癌(BRCA)、低级别胶质瘤(LGG)、肾乳头状细胞癌(KIP)和肝细胞癌(LIHC)这四种癌型的两个预后组之间的总生存率也表现出显著差异,并且被CLAMS分为预后不良的一组(nonTRU)死亡风险也更高(图6)。
在乳腺癌的分类结果中,TRU样本为Luminal A亚型,并且大多数ER或PR阳性,以及HER2阴性。当将肿瘤大小、年龄、性别等作为协变量,进行多变量Cox回归分析时,GOBO和SCAN-B中的nonTRU亚型死亡风险仍显著高于TRU组。But,在这三个来自不同数据库的乳腺癌数据集中,只有TCGA数据集没有表现出两个预后组之间的差异性,研究对此也没能给出合理的解释。
在对LGG的分类结果中,80%多的样本被CLAMS分类为nonTRU,同III级肿瘤样本相比,II级肿瘤中的TRU亚型更多,这与生物学事实相一致,但是在多变量Cox回归分析的结果中,CLAMS两类亚型未表现出显著的生存差异,作者将其归因为样本量太小。
对LIHC和KIP的分类结果也是如此,nonTRU组的样本预后更差,死亡风险更高,两种亚型在多变量Cox回归分析的结果中,也均未表现出显著差异。
由于CLAMS所用的分类基因大多与肿瘤增殖相关,为了检验TRU这一亚型的肿瘤细胞增殖率是否低于nonTRU亚型,作者接下来通过基因网络分析,比较了一组肺癌肿瘤增殖相关基因在这两种亚型中的表达差异,虽然不同癌型的肿瘤增殖水平不同,但是在所有类型的肿瘤中,预后较好的TRU组的肿瘤增殖基因排秩得分都低于nonTRU组(图7)。此外,在BRCA、LGG和KIP(LIHC除外)中,预后较好的分子亚型倾向于有更多低增殖得分的样本,
然后,为了分析增殖得分是否可以作为单独的预后因子,作者根据之前计算所得的等级评分,将每个恶性肿瘤的样本等分为低、中、高三个增殖组(图8)。研究发现,在LUAD、BRCA等5种癌型的分析结果中,不同的预后组之间的生存结果显著不同,不同的增殖组间的生存也表型出显著差异。
最后,为了评估CLAMS的预测效能,作者将其应用于6个包含治疗反应信息的数据集,并未发现良好预后与治疗反应之间的关系。
到这,两篇文章就看完了,怎么说呢,小编总觉得在有第一篇文章的基础上,第二篇的泛癌分析略显单薄,很多结果都是浅尝辄止,缺乏更深层次的分析,但是作为一篇方法学文章,它也确实有自己的优点所在,比如适用于泛癌,不局限于某一特定的平台及数据预处理方法,对早期肺腺癌的风险分层和治疗选择也都有一定的帮助,所以,分析方面就不要苛求太多了!好啦,今天的分享结束了,Have a nice day!
参考文献:
Nacer DF, Liljedahl H, Karlsson A, Lindgren D, Staaf J. Pan-cancer application of a lung-adenocarcinoma-derived gene-expression-based prognostic predictor. Brief Bioinform. 2021 Nov 5;22(6):bbab154. doi: 10.1093/bib/bbab154. PMID: 33971670; PMCID: PMC8574611.
Liljedahl H, Karlsson A, Oskarsdottir GN, Salomonsson A, Brunnström H, Erlingsdottir G, Jönsson M, Isaksson S, Arbajian E, Ortiz-Villalón C, Hussein A, Bergman B, Vikström A, Monsef N, Branden E, Koyi H, de Petris L, Patthey A, Behndig AF, Johansson M, Planck M, Staaf J. A gene expression-based single sample predictor of lung adenocarcinoma molecular subtype and prognosis. Int J Cancer. 2021 Jan 1;148(1):238-251. doi: 10.1002/ijc.33242. Epub 2020 Aug 12. PMID: 32745259; PMCID: PMC7689824.