共表达网络及ceRNA网络在复杂疾病分析中经常会用到,今天小编要和大家分享的就是一篇今年3月发表在 Frontiers in Oncology(4.848)杂志上结合共表达网络与ceRNA网络分析低级别胶质瘤放射治疗反应的文章。
Developing a lncRNA Signature to Predict the Radiotherapy Response of Lower-Grade Gliomas Using Co-expression and ceRNA Network Analysis
利用共表达和ceRNA网络分析开发lncRNA特征来预测低级别胶质瘤的放射治疗反应
一、研究背景
低级别胶质瘤(LGG)是一种中枢神经系统肿瘤,包括WHO II级和III级胶质瘤。如今,尽管随着医学科学和技术的发展对LGG有了一些治疗方案,但仍需要进一步研究。由于LGG在大脑中的位置难以接近,这为手术治疗LGG带来了挑战。因此,放疗(RT)是最重要的治疗方法,相比手术和化疗有更多的优势,但它也存在一定的局限性。由于遗传差异,每个人的反应可能不同。其中,非编码RNA和放射治疗反应之间的关系,特别是在分子水平上,仍然不明确。因此这篇文章利用共表达和ceRNA网络分析开发lncRN特征来预测低级别胶质瘤的放射治疗反应。
二、数据及方法
1. 数据资源:作者首先从TCGA下载LGG患者的基因表达数据(FPKM)和临床随访数据。接着根据原发肿瘤对放疗的短期反应将患者分为放射敏感组和放射耐药组。放射治疗后表现出完全应答的患者被认为是放射敏感的,而那些放射治疗后表现出疾病进展的患者被认为是放射治疗耐药的。在生存分析方面,纳入标准为随访生存时间大于30天和接受过放疗的患者。然后根据GENCODE注释数据库,从TCGA-LGG的RNA-seq表达数据中提取lncRNA和mRNA表达数据。同时作者为了验证TCGA-LGG放射敏感性相关生物标志物的发现,使用两个独立的CGGA数据集进行了总生存期验证。用STAR对两个CGGA数据集的表达进行序列匹配,用RSEM对转录本进行定量。这两个CGGA数据集分别包括325名和693名胶质瘤患者。
2. WGCNA 共表达分析:作者使用R软件中的WGCNA包进行共表达网络分析。miRNA的过滤标准是一个中位数绝对偏差(MAD)高于0.01。对于lncRNA和mRNA,作者选取了MAD高的前5000个lncRNA和mRNA。然后采用层次聚类分析去除异常值。接着对lncRNA、mRNA和miRNA的表达水平进行了共表达网络分析。首先,使用WGCNA包中的pickSoftThreshold函数估计powers(beta)值。接下来作者利用表达数据计算Pearson相关系数,生成相关矩阵,并转换为加权邻接矩阵。最后,生成拓扑重叠矩阵(TOM)来描述基因之间的联系。基于TOM,将共表达量高的基因分组到相同的模块中。合并截断阈值设置为0.2,即相似性高于0.8的模块被合并为一个模块。
3. 模块放射敏感性关联:对lncRNA、mRNA和miRNA共表达网络中的模块进行主成分分析(PCA)。第一个主成分(Eigengene)代表模块内的基因表达水平,用于放射敏感性的皮尔逊相关分析。相关性最强和p值<0.05被认为在放射敏感性中起关键作用。
4. CeRNA网络的构建及可视化:作者使用lncBase、miRDB和mirTarbase三个RNA相互作用数据库对这些基因进行了预测。lncBase用于预测lncRNA与miRNA的相互作用,而miRDB和mirTarbase用于预测miRNA与mRNA的相互作用。R包ggalluvial用于ceRNA网络的可视化。
5. GO及通路富集分析:利用R包clusterprofiler实现了ceRNA网络中靶基因的GO和KEGG富集分析。GO富集分析包括生物过程(BP)、分子功能(MF)和细胞成分(CC)。采用BenjaminiHochberg方法对GO和KEGG富集分析的p值进行矫正。R包GOplot用于可视化GO富集数据。
6. 选择hub基因:为了进一步筛选生物标志物,三个模块中的RNA被确定为hub基因。Hub基因被认为是模块内具有高连通性的基因,在调控中起着关键的关键作用,因此作为生物标记物更有意义。计算每个基因的基因显著性(GS)和给定基因表达谱与给定模型的eigengene的相关性(MM)。Hub基因的选择标准为GS>0.2和MM >0.8。
7. 生存分析:作者为了明确这些hub基因的表达水平与放疗后患者预后的关系,选择所有接受过放疗且有有效生存资料的患者进行生存分析。根据各基因表达水平将患者分为高、低两组。生存分析采用Kaplan-Meier曲线和log-rank检验,计算各基因表达对接受放疗的LGG患者预后的影响。使用Survival和survminer R软件包进行生存分析和可视化。
三、研究的主要内容及结果
1. 数据处理
在文章的第一部分作者介绍了分析数据,研究纳入了49例LGG患者(表1),其中30例胶质瘤在放疗后显示完全应答,19例表现出放射进展性疾病。所有患者的RNA-seq表达数据均可获得,但由于完全应答组中有1例患者的miRNA-seq数据缺失,因此只有48例患者被纳入miRNA共表达网络分析。GENCODE注释数据库识别出19600个mRNA和14085个lncRNA。接着计算基因的MAD。miRNA表达数据共2142个miRNA,其中MADs大于0.01的有792个。作者提取MAD最大的前5000个lncRNA和mRNA进行进一步分析。
2. WGCNA分析
在文章的第二部分作者进行了WGCNA分析。分析发现完全应答组中1例患者的mRNA表达数据在层次聚类分析中为离群值被移除。由于Beta值是构建高效共表达网络且在WGCNA分析中找到最相关的模块的关键,因此作者使用pickSoftThreshold函数计算。分析中最小R -平方值设置为0.9(图1)。构建共表达网络的lncRNA的beta值设置为4,而mRNA和miRNA的beta值分别设置为9和8。从lncRNA共表达网络中共识别出29个模块。图2显示了来自mRNA共表达网络的17个mRNA模块和来自miRNA共表达网络的8个miRNA模块。在模块-特征相关分析中,分析lncRNA模块,MEred, mRNA模块,MEgreen, miRNA模块,发现MEred是与患者放疗反应相关性最强的模块(图3)。这三个模块中的基因与LGG的放疗反应高度相关。
3. CeRNA网络分析
在这一部分作者进行了ceRNA网络分析。作者利用Lncbase数据库,用MEred中的lncRNA预测了3142个lncRNA-miRMA相互作用对。其中32个lncRNA-miRNA相互作用对与模块MEgreen中的21个miRNA相关。MiRDB和mirTarBase用于预测21个miRNAs的靶mRNA。在miRDB和miRTarBase中分别发现了21对和53对miRNA与mRNA的相互作用。结合miRNA-mRNA预测结果,ceRNA网络中包含19个lncRNA、20个miRNA和61个mRNA(图4)。
4. GO及KEGG富集分析
在这一部分作者从61个靶mRNA中共识别出56个GO条目。ceRNA中的靶mRNA主要与翻译抑制、泛素依赖蛋白分解代谢过程的负调控和翻译的正调控等相关(图5)。靶mRNA相关的KEGG通路最显著的是核糖体通路(图6)。
5. Hub基因选择与生存分析
在文章的最后一部分,经过GS和MM的计算,作者选择了13个lncRNA, 28个miRNA, 74个mRNA作为hub基因。生存分析结果如表2所示,可以发现DRAIC是影响放疗患者总生存期(OS)最显著的lncRNA。高lncRNA DRAIC表达组的总生存率明显高于低lncRNA DRAIC表达组(图7)。作者还注意到lncRNA DRAIC高表达组比lncRNA DRAIC低表达组表现出更好的无进展生存(图8)。接下来作者使用两个CGGA数据集作为独立的数据集,验证lncRNA DRAIC表达水平与LGG患者OS之间的关系。作者从CGGA325数据集中,提取了137例WHO II级和III级肿瘤患者的数据,这些患者接受了放疗,随访时间大于30天。基于类似的标准,作者还从CGGA693数据集中提取了308例患者的数据。分析发现CGGA325数据集中DRAIC高表达患者的OS数据明显好于低表达组患者(图9)。尽管DRAIC高表达组患者的长期生存期没有明显改善,在CGGA693数据集中,OS和5年生存率显著优于DRAIC低表达组(图10)。最后作者使用卡方检验来评估DRAIC表达与CGGA数据集中传统生物标志物水平之间的关系。研究发现lncRNA DRAIC的表达水平与IDH突变和1p/19q共缺失高度相关。在两个CGGA数据集中,与低表达组相比,DRAIC高表达组有更多的1p/19q共缺失和IDH1突变。而lncRNA DRAIC表达与MGMT甲基化无关(表3、4)。
四、结论
到这里这篇文章的主要内容就介绍完了。在本研究中,作者使用加权相关网络分析(WGCNA)筛选共表达网络中最相关的模块,构建ceRNA网络。WGCNA已广泛应用于生物学研究。同时,ceRNA网络分析也是复杂疾病研究的重要方法。作者将共表达网络与ceRNA网络相结合研究LGG辐射敏感性的转录后调控机制。研究中用到的功能富集分析、生存分析等生信方法都很经典,而这种将两种网络分析相结合的方法却值得我们学习参考。