转录组甲基化联合分析思路鉴赏
生信干货
小师妹 ·2019年8月27日 17:58
整合分析胶质瘤中DNA甲基化和基因表达来识别关键表观基因Integrative analysis of DNA methylation and gene expression to identify key epigenetic genes in glioblastoma胶质母细胞瘤(GBM)是世界上最常见、最具侵袭性的原发性脑恶性肿瘤。然而,病人的生存率仍然很低。因此,迫切需要对GBM的肿瘤分子学进行研究。在这里小编向大家介绍一篇刚刚发表的识别胶质瘤中关键表观基因的文章。
由于启动子区域的DNA甲基化对基因表达有很强的影响,作者选择了启动子区域的CpGs,该启动子区域为来自TSS上游2 kb到下游0.5 kb之间。经过数据预处理,最终得到145,907个甲基化位点用于后续分析。在这一部分作者获得了包括样本ID、生命状态、初始病理诊断年龄、死亡天数、随访天数、分级等临床信息。所有样本随机分为两组:训练集(n = 69)和测试集(n = 69)。训练集和测试集需要满足以下条件:首先,将样本随机分配到训练集和测试集;其次,两组患者的年龄分布、随访时间及死亡率应相近。
在这一部分,根据筛选标准,所有肿瘤和正常样本共获得4881个显著DEGs,其中上调基因1111个,下调基因3770个。最显著的100个基因的表达谱如图2所示。作者为了确定与生存结果相关的甲基化位点,对获得的GBM甲基化位点进行单变量和多变量Cox回归分析。共得到11,269个甲基化位点,生成了一个新的生存-甲基化表达谱以供进一步分析。
作者分析了上调DEGs和下调生存甲基化基因之间的Pearson相关性,以及下调DEGs和上调生存甲基化基因之间的Pearson相关性。如图3A所示,发现上调DEGs和下调生存甲基化基因之间共有198个基因。此外,在下调的DEGs和上调的存活甲基化基因之间有111个基因。接下来,对肿瘤样本和正常样本之间DEGs的启动子甲基化分布进行了分析。结果表明,肿瘤高表达基因在正常样本中启动子甲基化程度较低,说明启动子DNA甲基化与正常和肿瘤组织中基因表达呈负相关(图3B)。
作者发现了198个高基因表达的低启动子甲基化(EI基因),以及111个低基因表达的高启动子甲基化(ES基因),对这些基因进行功能富集分析,如图4A,而这些基因的互作关系如图4B所示。这些结果表明,研究筛选的EI和ES基因参与了GBM发生发展的生物学过程。

在无监督聚类分析中,作者选取了上述两个基因的20个CpG甲基化位点(表1)。利用欧几里德距离计算样本之间的相似性,发现所有样本都可以根据20个CpG甲基化位点分为类1和类2。而类1的甲基化水平较高,类2的甲基化水平较低(图5A)。进一步分析两组患者预后。如图5B所示,发现低甲基化组的预后明显好于高甲基化组。此外,作者比较了两组患者的年龄,发现低甲基化组患者的年龄分布低于高甲基化组(图5C)。

在这一部分为探讨GBM中IDH1突变与DNA甲基化的关系,作者将所有样本根据IDH1基因突变分为IDH突变组(n = 7)和IDH非突变组(n = 131)。如图6所示,IDH突变组的样本甲基化水平低于IDH非突变组。然后,比较了两组中每个甲基化位点的表达。如图7所示,发现20个位点中有19个在IDH突变组和IDH非突变组之间有显著表达。上述结果提示,这些甲基化位点与IDH1突变密切相关。

为了验证甲基化数据和预测模型的结果,使用了基于TCGA数据的测试集(n = 69),使用20个甲基化位点的表达,并进一步使用层次聚类分析。发现20个CpG甲基化位点也可以将所有样本清晰地分为两组(图8A)。类1组甲基化水平明显高于类2。此外,低甲基化组的预后明显好于高甲基化组(图8B)。也可以看出,低甲基化组的年龄分布低于高甲基化组,这与训练集的结果一致(图8C)。此外,下载GBM的DNA甲基化(GSE36278)数据,共142例患者。选择20个甲基化位点的表达谱和临床资料。接下来,使用层次聚类方法将所有样本分为两组(图9A)。结果显示,两组患者的生存率存在显著差异(图9B)。此外,比较了两组间的年龄分布,发现高甲基化组高于低甲基化组(图9C)。这些结果与TCGA数据集一致,说明该模型可以应用于其他样本。到这里,这篇文章的主要内容就介绍完了,可以看出作者结合了GBM的甲基化数据以及表达数据,识别出了关键的表观基因,研究的角度和方法小伙伴们可以借鉴呦。有分析需求的加微信哦

欢迎关注生信人