免疫一直是肿瘤研究的一个关键方向,因此今天小编要和大家分享一篇今年五月发表在Briefings in Bioinformatics(IF:8.994)杂志上的分析肿瘤免疫表型相关的关键调控因子的文章。
Network-based identification of key master regulators associated with an immune-silent cancer phenotype
基于网络识别与癌症免疫沉默表型相关的关键的调控因子
一.研究背景
如今研究已经发现肿瘤免疫表型与肿瘤对免疫治疗的应答和预后相关。然而,在一些癌症中,瘤内免疫激活并不能预防肿瘤进展或复发。同时尽管确定免疫逃避相关机制对于细化分层策略、指导治疗决策和确定免疫靶向治疗的候选方案是至关重要的,但调控免疫排斥机制的分子改变在很大程度上仍是未知的。如今大量可用的基因组数据集的产生为识别不同肿瘤内免疫反应的关键决定因素提供了机会。因此,今天小编和大家分享一篇基于网络来识别与免疫抗肿瘤活性相关的转录调控因子(TRs)的文章。
二.数据及方法
1. 转录调控因子:作者想要得到一个广泛的候选TRs列表,寻找所有参与调节细胞DNA模板转录频率、速率或范围过程的基因。因此,作者选择所有用GO:0006355 (调控转录)注释的基因,最终获得了3674个TRs列表,这个TRs列表是TRs的超集,包括受体、激酶、生长因子、信号转导蛋白、转录辅助激活子和辅助因子作为候选调控因子。
2. 数据的获取及标准化:作者从TCGA下载RNA-seq数据,接下来使用TCGA biolinks进行处理。每个癌型的RNA-seq数据用Dc表示,Dc={gc1,i,gc2,i,...,gcp,i},∀i∈{1,...,Nc},这里c代表癌症类型,i代表第i个样本,j代表第j个靶向基因,g表示表达,N表示样本数。研究总共有23 216个靶基因,包括3674个TRs。作者使用32例原发性实体肿瘤的RNA-Seq数据进行分析。这些样本被分位数标准化和log2转换用于分析(图1A)。从PRECOG库中,作者选择了8个数据集,每个数据集对应一个不同的、最大的、独一无二的特定癌症类型数据集作为验证集。其中包括:GSE32894用于膀胱尿路上皮癌(BLCA)、GSE3494用于乳腺癌(BRCA)、GSE39582用于结肠腺癌(COAD)、GSE108474用于胶质母细胞瘤(GBM)、GSE65858用于头颈部鳞状细胞癌(HNSC)、GSE72094用于肺腺癌(LUAD)、GSE9891用于卵巢癌(OV), GSE65904用于皮肤黑色素瘤(SKCM)。这8个数据集分别由224、251、579、490、270、398、278和210个肿瘤样本组成。
3. ICR分类与肿瘤类型选择:免疫排斥常数(ICR),是一个捕获先天性和适应性免疫效应机制的伴随激活的特征。在先前的工作中,作者在TCGA中使用ICR分类对每个癌症类型c进行分类。简而言之,对特定癌症类型c的癌症样本采用基于20个ICR基因表达的一致性聚类算法,将其分为三个离散的类别:ICR高(ICR- H和免疫活跃即热免疫表型),ICR中等和ICR低(ICR- L和免疫沉默即冷免疫表型)。ICR基因表达量最高的聚类为ICR- H,而ICR基因表达量最低的聚类为ICR- L。中间聚类中的所有样本均定义为每种癌症的ICR中间(ICR- M)。作者的目的是比较具有高度活跃免疫表型(即ICR-H)和免疫沉默表型(即ICR-L)的癌症样本。先前研究发现存在一个癌症类型子集其中ICR-H比ICR-L有更好的生存预后,这些癌症亚型被称为ICR激活 (ICR- E)癌症。同样,存在一些癌症类型的子集,ICR- L组比ICR- H组有更好的生存预后,作者将其定义为ICR失能(ICR- D)癌症。其余肿瘤均为ICR中性(ICR- N)。在本研究中,作者主要关注这8种ICR- E和4种ICR- D癌症类型,因为ICR表型在这些癌症类型中具有预后价值。
4. 推断基因调控网络:对于给定的Dc,作者使用两种先进的技术RGBM和ARACNE,推断TRs和靶基因之间(图1B)的基因调控网络(GRN)。推断的GRN是加权和无向的。为了质量控制,作者剔除了RGBM和ARACNE推断的GRN中尺寸小于10的TRs。作者使用R中的RGBM和corto包分别执行GRN推断的RGBM和ARACNE方法。
5. TR激活得分:给定特定癌型c的Dc和GRN(gc),样本中TR的活性水平可以作为其靶蛋白的mRNA集体水平的函数来估计,如RGBM和VIPER所示。
6. 基因集合富集分析和MR选择:在VIPER中,利用一个概率框架直接集成了调控的靶点模式,即靶点是被激活还是被抑制,利用调控靶点交互的置信度和不同调控子之间的靶点重叠(多效性),来计算一个TR调控的标准化富集得分(NES)。因为 VIPER表达激活所有相同规模的TRs,作者可以执行差异分析使用贝叶斯统计框架如LIMMA R包来识别ICR-H和ICR-L样本之间差异激活的TRs (MRs)。在FGSEA中,为了识别ICR-H和ICR-L原发肿瘤样本之间差异活跃的TR调控,作者首先估算两组之间每个基因mRNA水平的平均差异。为了确定特定TR调控具有统计显著性的富集得分,作者使用R中的fgsea包的fgsea函数。对于所有癌症类型,作者选择显著差异的TRs作为差异激活MRs(图1E)。图1F展示了MRs的活性,表明有些MRs在ICR-H样品中具有高活性,而在ICR-L样品中具有低活性,反之亦然。在GSVA中,一种非参数的、无监督的技术被用来估计TR调控的富集得分。作者为每个TR调控获得一个样本特定的富集分数,使用贝叶斯统计框架(如LIMMA)进行差异分析,以确定癌症类型c的ICR-H和ICR-L样本之间的差异激活TRs (MRs)。
7. 通路富集分析:作者使用ConsensusPathDB分别对12种癌症类型的ICR-H和ICR-L表型常见的MRs进行功能和通路富集分析。
三.研究的主要内容及结果
1. 使用一致框架识别MR
在这项工作中,作者使用了四个不同的pipeline来执行MR分析(MRA):(a) RGBM + FGSEA, (b) RGBM + GSVA, (c) RGBM + VIPER,(d) ARACNE + VIPER,并对特定癌型将一致性例如交集作为ICR-H和ICR-L样本之间的差异激活MRs(图1)。此外,作者也研究所识别的MRs是否与样本中的肿瘤纯度水平有关。当使用R中的limma包进行差异活性分析时,将肿瘤纯度信息作为协变量,观察到在12种感兴趣的癌症中,在不考虑肿瘤纯度的情况下识别的顶部差异活性MRs保持完好。因此,作者推断通过一致性pipeline识别的ICR-H和ICR-L特异性MRs可能捕获了肿瘤免疫相互作用和癌细胞固有免疫调节信号。
2. ICR表型的MRs激活跨越原发肿瘤
在这一部分作者主要展示一致性MRs的激活模式或标准化富集得分(NES)。作者展示了由FGSEA方法识别的每个癌症c的NES评分,如图3A所示。在图3B中展示了这些MRs在ICR-H和ICR-L样本中的中位活性(每种癌型c)。可以观察到,NES为0的MRs在ICR-H样本中倾向于具有较高的中位活性,而在ICR-L样本中倾向于具有负的中位活性,即在图3B中属于第四象限的点。因此,作者认为这些MRs是ICR-H表型特异性的。同样,NES为0的MRs在ICR-L样本中普遍具有较高的中位活性,而在ICR-H样本中普遍具有较低的中位活性,即图3B中第二象限的点。因此,这些MRs被认为是ICR-L表型特异性的。此外,由于同时展示了12种癌症的结果,同样的MR可以在图3A和图3B中出现多次。作者也发现CD28、CD4、CD74、CIITA、CXCL10、FLI1等基因均为12种肿瘤亚型的MRs。同时也观察到20个ICR基因中,只有6个包含在3674个TRs中,其中3个在所有12个ICR-H肿瘤样本MRs中一致正激活(图4A和B),这可能说明作者的方法能够捕获ICR-H表型的MRs。
3. 12种ICR预后癌症的一致MRs
在这一部分作者想要识别每个预后癌症类型(ICR-E和ICR-D)中刻画两种相反免疫表型(ICR-H和ICR-L)的最保守的MRs。作者比较了8种ICR-E和4种ICR-D癌症之间已识别的MRs列表。结果发现有44个MRs在ICR-H和ICR-L表型之间差异激活,如图4A中所示其在全部8种ICR-E癌症中都存在。类似地,作者识别了全部4种ICR-D癌症共有的29种MRs,如图4B所示。同时作者观察到这些MRs在ICR-H样本中具有较高的中位正活性,而在ICR-L样本中具有较低的中位负活性,因此认为其是ICR-H表型特异的。从图4A和B中,作者识别了19个MRs,它们在所有12种感兴趣的癌症(包括ICR-E和ICR-D癌症)中共存在,并且都是ICR-H表型特异的。这些结果可能表明两种相反的免疫表型(ICR-H和ICR-L)的主要特征是高免疫活性相关的MRs的上调而不是MRs获得免疫排斥的结果,同时也表明这些MRs与免疫活性(ICR)的预后无关。
4. ICR-H和ICR-L表型特异的一致MRs
在先前的结果中作者已经得到12种感兴趣癌症的全部共享MRs即使在ICR-E或ICR-D内,其都是ICR-H表型特异的。在识别了有利于免疫激活的主要特征(ICR-H特异性MRs)后,在这一部分作者采用一个不那么严格的标准来识别有利于免疫排斥的MRs,即ICR-L特异性MRs。结果观察到如图5A所示8种ICR-E癌症中有4种存在一致MRs。作者得到了118个这样的MRs集合。也可以观察到八种ICR-E癌症中每一种ICR-H和ICR-L样本的中位活性。在至少50%的ICR-E癌症中,共有32例集合MRs在ICR-L样本中具有高中位数活性,在ICR-H样本中具有低中位数活性。这32个MRs被认为是ICR-L表型的特异性的。作者对8种ICR-E癌症和4种ICR-D癌症的ICR-H特异性MRs进行了合并,并只考虑那些在ICR-H癌症样本中中位活性为>0的MRs,结果共得到155个MRs,这些MRs被认为是对所有12种感兴趣的癌症的ICR-H表型特异的。图5D展示了12种ICR癌症中每一种MRs的活性中位数,其中一些MRs是20个ICR基因的一部分,其高表达表明主动免疫作用,即ICR- H表型。接下来作者对ICR-L表型进行了类似的分析,如图5C所示。最终得到57个MRs被认为是所有12种感兴趣的癌症的ICR-L表型特异的。图5C展示了12种ICR癌症中每一种MRs的活性中位数。因此,作者分别针对ICR-H(免疫活性)和ICR-L(免疫沉默)表型识别了155个和57个MRs,接下来进行下游通路富集分析,以确定可能控制免疫排斥功能的分子机制。
5. TGBF1I1 作为主要负免疫调节器阻止有利应答
作者观察到在八个ICR-E和四种感兴趣的ICR-D癌症样本中的ICR-EH和ICR-DH癌症样本中,有一组7个MRs具有不同的中位活性模式。由于这些MRs不一定是12种癌症中的每一种的TR,因此给出的活性中位数为0。但这7种MRs中的每一种在大多数8种ICR-E癌症中都具有低中位数活性,而在大多数4种ICR-D癌症中具有高正的中位数活性,如图6A所示。这7个MRs可能有助于了解ICR-EH和ICR-DH肿瘤样本之间的生存预后差异。此外,MR TGF-β似乎在ICR-D癌症中被积极激活,而在大多数ICR-E癌症中呈中位负活性。TGF-β是一种已知的免疫抑制因子。因此,它的高活化可能可以为ICR-D癌症中的ICR-H样本较差的生存预后提供一些见解。类似地,作者也观察到,在12种ICR癌症的ICR- L样本中,5个MRs具有不同的中位活性模式。这五种MRs中的每一种在大多数四种ICR-D癌症中均具有低负中位活性,在大多数八种ICR-E癌症中均具有高正中位活性,如图6B所示。这些MRs的失活可能与ICR-D癌症中较好的生存预后相关,而它们在ICR-E癌症中的高活性可能与较差的生存预后相关。此外,作者还将MRs的活性与生存结果联系起来,观察到6个中位数ICR-DH活性高的MRs中有4个都与较短的生存相关。这种效应在所有12种ICR癌症组以及ICR- E和ICR-D癌症组中是一致的,证实了它们固有的免疫抑制作用。此外,ICR预后依赖于TGFB1I1的表达,因为只有在TGFB1I1活性低的情况下,ICR才与良好的结果相关,这说明TGFB1I1可能是主要的免疫调节器和免疫转化的潜在靶点。
6. 富集分析
在这一部分作者在确定了ICR-H 和ICR-L表型特异性的MRs后,使用ConsensusPathDB进行下游富集分析。首先,作者认为ICR-H表型特异的155个MRs都是富集基因,背景是所有靶基因的集合。然后,利用ConsensusPathDB的过表达分析框架来识别富集的通路、蛋白复合物和GO条目。最终识别40个蛋白复合物、826个GO条目和237个通路,它们显著富集ICR-H表型特异的MRs。作者观察到,大多数最显著富集的通路都是免疫参与的标志通路,其中这些MRs的高活性表明积极的免疫参与及部分肿瘤组织的排斥。接着作者对ICR-L表型特异性的57个MRs进行了类似的分析。在分析中,作者得到ICR-L表型特异性MRs的共4个蛋白复合物、131个GO条目和30个显著富集的通路。从图7中,观察到SMARCC2、KAT2A、KAT5、L3MBTL1、PRMT5和HDAC10等MRs参与了TP53活性调控、NOTCH信号通路和一般转录通路,而BTRC、PRKCZ和PDPK1等MRs参与了白细胞介素-1和TNF-α信号通路。
7. 对ICR-N癌症和PRECOG数据集进行MRs验证
在文章的最后一部分作者进行了验证,通过比较框架确定的一致MRs的活性模式,该模式特异于所有ICR中性(ICR- N)癌症的ICR- H和ICR- L肿瘤样本。作者根据ICR-N肿瘤样本中的活性模式对ICR-L表型特异性MRs进行层次聚类。同时对ICR-H表型特异性的MRs进行了类似的层次聚类,并将两个树状图同化在一起,如图8A所示。结果观察到,特异性于ICR-L表型的MRs在所有的ICR-L样本中具有主要的高活性模式,与癌症类型无关,而在TCGA中20种ICR-N癌症的大多数ICR-H样本中,他们具有低活性模式。类似地,对于与ICR-H表型相关的MRs,观察到这些MRs大多数在ICR-H样本中具有高活性,而在大多数ICR-L样本中具有负活性,如图8A所示。此外,作者还对从PRECOG中获得的8个数据集进行了额外的验证。作者再次观察到,针对ICR-L表型的MRs在所有的ICR-L样本中具有主要的高活性模式,与癌症类型无关,而在PRECOG数据集的大多数ICR-H样本中,它们的活性模式较低。同样对于与ICR-H表型相关的MRs,观察到大多数这些MRs在ICR-H样本中具有高活性,而在大多数ICR-L样本中具有负活性,如图8B所示。
到这里这篇文章的主要内容就介绍完了,简而言之,作者通过RGBM + FGSEA、RGBM + GSVA、RGBM + Viper和ARACNE + Viper MRA pipelines从RNA-Seq数据推断的TR活性谱可以用于发现与免疫排斥表型相关的关键MRs,同时使用ICR-N癌症和一组从PRECOG收集的8个数据集进行了MRs验证。文章无论是内容还是方法都值得我们学习借鉴,特别是免疫相关的小伙伴不要错过呀。