今天来看一篇今年十月份刚发表在Nature Communications上的利用公共数据结合自己的数据开发算法鉴定新的肿瘤标记物的文献,整个研究思路都不复杂,也都是一些常规的简单分析,很值得借鉴。
通过来自治疗中肿瘤样本的通路标记预测转移性黑色素瘤对抗PD1阻断的反应
摘要
本研究主要是基于来自于以抗PD1为基础的治疗作为训练集的转移性黑色素瘤的转录组数据和临床信息,在治疗前(PASS-PRE)和治疗中(PASS-ON)肿瘤样本中构建基于路径的超级标记,同时也在转移性黑色素瘤的三个独立数据集中进行了验证。此外,还合并了所有的样本,PASS-PRE和PASS-ON 标记的AUC值分别是0.65和0.88。与现有标记相比,PASS-ON标记在所有四个数据集上表现出更稳健和更优越的预测性能。总的来说,本研究提供了一个基于通路的标记的构建思路,该标志高度准确地预测了治疗中肿瘤病人的抗PD1治疗的反应。最后,研究人员指出,基于治疗中肿瘤样本的通路的标记有望应用预测患者对ICB治疗的治疗反应。
研究背景
免疫检查点阻断(ICB)疗法是一类通过调节T细胞活性来提高抗肿瘤免疫反应的治疗方法。这种疗法虽然在治疗转移性黑色素瘤和许多其他类型的癌症患者方面取得了显著的成功,但是只有一部分患者长期获益。因此很有必要对患者进行ICB疗法上的分诊,否则可能还会产生比较大的副作用,确定对ICB疗法反应的预测性生物标志物是非常必要的,这将为治疗决策提供并优化信息。
目前基于基因组和转录组研究已报道的生物标记主要包括有肿瘤突变负荷(TMB)、新抗原负荷、HLA-I基因型、细胞溶解活性、非整倍性和T细胞库。此外,在肿瘤或肿瘤免疫微环境(TiME)中表达的免疫预测评分(IMPRES)和IFN-γ反应基因等基因表达特征也与预测转移性黑色素瘤对ICB疗法的反应有关。现有的标记主要都是基于临床前模型、仅进行治疗前活检的临床队列、外周血样本和非全转录组测序数据,而且由于批次效应、缺乏可重复性或其他原因等,ICB疗法的大多数预测标记未能在其他队列中得到验证。
预测标记在独立数据集和潜在各种癌症类型的可重复性是临床实践中广泛应用之前的一项基本要求。研究人员推测仅用有限数量的基因构建的单个基因或预测标记可能会降低可重复性和普遍性。在本研究中,他们利用RNAseq数据和治疗前和治疗中转移性黑色素瘤的临床信息,在四个独立的数据集中鉴定了基于通路的标记,以预测转移性黑色素瘤对抗PD1疗法的反应。他们分别在治疗前和治疗中的时间点,从抗PD1应答(R)与无应答(NR)的肿瘤样本中鉴定出显著富集的通路标记。总的来说,本研究证明了来源于非治疗性肿瘤标本的基于通路的特征标记能够高度预测转移性黑色素瘤患者对抗PD1阻断疗法的反应。
结果
1. 样本队列和计算流程
本研究中主要分析了三个已发表的黑色素瘤数据集,一个已发表的MGH(Massachusetts General Hospital,麻省总医院)队列和一个新生成的MGH队列的RNA-seq数据。这些样本都来自转移性黑色素瘤患者,包括有治疗前和治疗中的患者,他们接受抗PD-1/PD-L1单药疗法,抗PD-1/PDL1单药疗法和抗CTLA-4单药疗法,或抗PD-1加抗CTLA-4疗法的组合(图1a-b)。
图1a-b
研究人员开发了一个计算流程来鉴定基于通路的标记,用于预测患者对ICB治疗的反应。首先在训练集中筛选出通路标记,然后在验证集中检验标记的预测能力(图1c)。由于Riaz et al数据集(GSE91061)是所有四个数据集中最大的,所以研究人员指定这个数据集为训练集,其他三个数据集为验证集。其中MGH数据集是已发表的MGH队列与新生成的MGH队列合并而成。
图1c
2. 治疗前样本中基于通路的超级标记
研究人员构建了一个回归模型用于计算鉴定Riaz et al数据集中基于通路的预测标记,主要流程包括差异表达基因分析(DEGs)、基因集富集分析(GSEA)、候选通路筛选以及ENLR模型的训练和验证(图2a)。在基因差异分析中,鉴定出了190个上调基因(R vs NR,图2b)。通过对鉴定出的DEGs进行GSEA富集分析,一共富集出了98条通路,图2c中展示了前15条显著富集的通路。研究人员接着进行了ssGSEA分析,对这15条通路进行了一个打分(图2d);基于路径分数,利用 ENLR 模型来识别具有最高预测精度的通路,识别出了六条通路作为预测抗PD1治疗反应的最有效标记。最后,研究人员计算了这六条通路的ssGSEA值的加权平均值,并将其命名为基于通路的超级标记(PASS-PR)得分。Riaz et al数据集中的治疗前样本 (PASS-PRE) 的 R组的PASS-PR得分明显高于NR组(图2e)。
图2a-e
为了评估这个标记的预测能力,研究人员绘制了ROC曲线图,发现其AUC的值为0.73(图2f),说明其预测能力还不错。最后,还将患者分成高低两组对其进行生存分析,结果显示与低分组患者相比,高分组患者的OS和PFS显著改善(图2g-h)。
图2f-h
以上都只是在训练集中的情况,那这个新鉴定出的标记在其他数据集的情况又是如何呢?所以研究人员进一步验证了PASS-PRE在其他三个独立数据集中的预测性能。尽管在所有的治疗前样本中高分组的患者有显著改善的PFS和OS,但结合所有的验证集中的结果发现PASS-PRE在治疗前样本中的预测性能其实并不够显著和稳定(图3)。
图3
3. 治疗中样本中基于通路的超级标记
前面的分析都是在治疗前样本中的分析,所以接下来研究人员用类似的方法对治疗中的样本进行了分析,鉴定出了1078差异基因(图4a),然后对这些差异基因进行GSEA分析和后续的一系列分析,最后得到了一个命名为PASS-ON的打分标记(图4b-d)。与NR组相比,R组PASS-ON分数明显高(图4e)。观察到 AUC 为 0.83(图4f),说明PASS-ON的预测能力很好。通过生存分析发现高分组的患者的OS和PFS明显优于低分组患者(图4g-h)。
图4
同样的,为了进一步验证PASS-ON的预测性能,研究人员也在其他三个数据集中进行了一系列的验证测试(图5)。总而言之,通过对治疗中的样本的分析,研究人员发现并证明了PASS-ON在预测患者对抗PD1疗法的临床反应方面的有效性。此外,PASS-ON分数对不同生存情况的患者可以进行很好的区分。
图5
4. 基于治疗前和治疗中样本的时间变化的通路相关的超级标记
上述标记主要是用于R和NR之间的比较,研究人员推断一些标记在治疗过程中是动态变化的,因此构建了如图6a所示的计算流程,用于分析治疗前和治疗中时间变化相关的标记。一共设计了TimeANLS-PRE和TimeANLS-ON两个回归模型。对于第一个回归模型来说,在训练集中的R样本中鉴定出了60个治疗后显著上调的基因(图6b),然后进行富集分析,通路筛选以及标记的确定。经计算,训练集中的AUC值为0.82(图6c),其他三个验证集中的AUC分别是0.60,0.49和0.76(图6d),综合所有样本以后的AUC为0.63(图6e)。在图6f-h中展示了TimeANLS-ON模型在不同数据集中的预测效果的不同情况。
图6
5. 本研究中鉴定出的标记与其他已报道的标记的比较
虽然本研究前面从各个方面和多个数据集中展现了新的标记的优良性能,但是它与目前已报道的标记相比又有什么优势呢?基于这个问题,研究人员将其与目前研究中一些已经报道的标记进行了一系列的比较。首先是对治疗前样本的分析,将PASS-PRE和 TimeANLS-PRE的预测性能与已报道的预测标记进行了比较。PASS-PRE 和 TimeANLS-PRE 显示的平均 AUC 分别为 0.66 和 0.67,这与其他已报道的标记不相上下(图7a)。而PASS-ON和 TimeANLS-ON的平均 AUC 分别为 0.86 和 0.82,明显优于其他标记物(图7b)。
图7
讨论
总之,从治疗中样本提取的通路标记对转移性黑色素瘤患者的抗PD1治疗反应具有高度预测性。本研究不仅提供了抗PD1治疗反应的高度准确和个性化的预测标记,而且还为抗PD1治疗转移性黑色素瘤患者的临床管理提供了依据。但是需要进一步的研究来验证这些标记在更大的转移性黑色素瘤、其他类型ICB治疗和癌症患者队列中的预测性能。