今天这篇文章的内容是拷贝数变异(CNVs)引起的lncRNAs失调对结直肠癌预后的影响,题目如下:
结直肠癌(CRC)的死亡率在恶性肿瘤中高居第二位,5年相对存活率低于50%,其在基因组变异、表观基因组变异和转录异常中均表现出异质性。在该研究中,作者基于mRNA表达谱、DNA拷贝数和DNA甲基化数据识别出了5种CRC预后相关的分子亚型;并通过分析lncRNAs的拷贝数表达谱,筛选出了预后相关的表达异常lncRNAs。
数据
原始数据下载自TCGA,包括RNA-seq、450k甲基化、CNV、DNA突变和临床数据,经过一系列处理,得到了458 名CRC患者和41名正常患者的基因表达谱;作者将lincRNA、同义内含子(sense-intronic)、同义重叠(sense-overlapping)、反义(antisense)、processed-transcript和 3’启动子重叠(3primer-overlapping)定义为lncRNAs(这与Ensembl中对lncRNA的定义基本一致);PCGs表示蛋白编码基因;对甲基化数据和临床数据进行了相应筛选。
接下来,小编带大家详细了解一下本研究的方法和获得的结果。
多组学整合分析
首先,基于单变量Cox比例风险回归模型,作者将PCGs、CNVs和450k 甲基化数据同预后状况相结合,最终得到2118 genes、5015 CNV regions 和7083 CpG位点(p<0.05) ;然后,用iCluster将同时有三种组学数据的289名CRC患者分成5个亚型C1, C2, C3, C4和C5,其中C3组生存率最低,C2预后最佳(图1.A),
而且C3组晚期患者的比例要大于其他四个亚型;此外,作者绘制了5个亚型的基因突变谱,筛选出了每个亚型突变率最高的10个基因,共得到20个相关的突变基因,表明了这5种亚型的突变一致性,但基因的突变频率在不同的亚型中存在显著差异(图1.B),C5的突变率要更高。
图1
各亚型的差异表达lncRNAs和mRNAs: 作者利用R包DEseq2识别出了在5种亚型和正常组织中差异表达的 lncRNAs和mRNAs(fold change>2, FDR<0.05) ,结果如表一所示,可知C5亚型的差异mRNAs和lncRNAs较少,而C2和C3较多。而且,上调的lncRNAs明显多于下调的lncRNAs。然后,作者在LncRNA Disease and Lnc2Cancer数据库下载了疾病相关的lncRNAs,得到了611个DElncRNAs,对它们用基因集富集分析(GSEA)进行聚类,所得的结果表明这些DElncRNAs显著富集在特定的分子亚型中。
表一
基于WGCNA的lncRNAs与PCGs共表达模块
该研究利用层次聚类方法分析了差异lncRNAs与PCGs的共表达,将距离大于150000的样本删除后,得到了492例CRC样本(图2.A),为了确保网络的无标度特性,阈值定为3。最终获得了27个模块(图2.D),灰色模块包含无法被分类为其他模块的基因,这27个模块中lncRNAs和PCGs间的聚合程度没有显着差异。为了寻找生物相关的模块,作者对每个模块和病人的年龄、性别、身高、体重、分期等临床信息做了相关分析(图3.A)。其中,有四个模块:棕褐色、蓝色、黄色、紫红与三种以上的表型相关,作者分别筛选出了这四个模块显著富集的KEGG功能通路(p< 0.05),结果表明它们聚集到了不同的通路(图3.B)。
图2
图3
各模块显著富集到的通路如图4所示,棕褐色模块与18条通路相关,其中神经活性配体-受体相互作用和钙信号通路显著性最高(图4.A);黄色模块中只有两个通路被富集到,其中microRNAs在癌症中可能具有重要作用(图4.B);蓝色模块富集到了47个通路,包括神经活性配体-受体相互作用、PI3K-AKT信号通路和MAPK信号通路(图4.C);紫红色模块中的基因主要富集于Wnt信号通路、TGF-β信号通路和DNA复制,这与CRC的发生密切相关(图4.D)。总体而言,利用WGCNA构建的DE-lncRNAs和PCGs共表达模块富集到多种通路上,这些通路在CRC调控中起着重要的作用。
图4
CRC中lncRNAs相关CNVs的识别
lncRNAs与CNVs的表达谱之间呈显著正相关(p<1e-16),此外,研究基于GISTIC算法识别了CRC基因组中频繁改变的区域,点扩增(focal amplification)事件主要分布在染色体8、11、12p13、16q12、20p11,点缺失(focal deletions)事件集中在1p33、3q26、4p16、5q11、5q22、20p12。基因组上lncRNAs的缺失事件远远多于扩增,表明了lncRNAs的拷贝数缺失对CRC的影响。为了深入探讨CNV对lncRNAs转录的影响,作者在452例CRC患者中筛选出了17个CNV频率超过7%的lncRNAs。其中,4个lncRNAs:CASC11, HM13-AS1, ABALON, NKILA在扩增组的表达高于二倍体组(p<0.05);FAM87A, LOC101927752, KBTBD11-OT1, LOC100287015, LOC101929066这5个lncRNAs在拷贝数缺失组中的表达低于正常拷贝数组(p<0.05)。这些结果表明,lncRNAs的缺失或扩增可能与lncRNAs的表达水平密切相关。
基于lncRNAs的CRC预后生物标志物研究
基于之前的五种分子亚型,该研究系统分析了它们中DE-lncRNAs的拷贝数变化,得到了104个符合以下标准的lncRNAs:CNV在每个样本中的变化频率大于0.1%;在至少5个亚型中存在差异;与CNVs正相关。最终,基于四分位数法得到了10个与预后显著相关的lncRNAs(图5)。
图5
然后,作者用GEO中的数据集GSE39582验证了这10个lncRNAs的预后价值,只有5个lncRNAs:CASC15、LINC-PINT、C14OF132、LMF1和CCDC144NL-AS1表现出显著的预后差异。
总的来说,本文通过整合RNA-seq、甲基化和CNVs数据将CRC样本分成五个亚型,分析了CNV和lncRNAs间的关系,识别出了10个可能影响CRC预后的CNV相关的lncRNAs,并通过GEO数据集验证了其中5个的预后价值,为CRC患者的诊断和治疗提供了新的角度。
今天的一句话是:You cannot live your life to please others. The choice must be yours.
大家好,首先感谢关注生信人。生信人目前拥有超级预后,超级可变剪切,突变+表达,表达+突变,DNA甲基化,自噬,ceRNA、经典预后、m6A、可变剪切、肿瘤微环境,免疫浸润,多组学,驱动基因,突变,耐药,CNV肿瘤干细胞等多种经典和新潮分析思路和方案。
在此开工季,欢迎大家预定分析服务。
开工季,套路上新
(8.29-9.30)期间签订项目
赠送生信人网课一套