今天跟大家分享的是今年11月底发表在Genomics(IF: 5.736)上的一篇文章,主要是对I期、II期和III期胃癌和正常组织进行转录组测序,识别胃癌分期特异性的差异表达基因(DEGs)、单核苷酸多态性(SNPs)和转录因子(TFs)。并基于分期特异性的标志基因,构建包含DEGs和TFs的相互作用网络。
本文是一篇比较套路的生物信息学文章,小编也犹豫很久到底要不要分析,最终还是决定分享给大家。分享不是为了让大家借鉴学习,更多的还是想给大家避雷,希望大家都能够避免这种套路重复的工作,找到自己的创新点。
Identifcation of stage-specifc differentially expressed genes and SNPs in gastric cancer employing RNA-Seq based transcriptome profling
基于转录组测序识别胃癌分期特异的差异表达基因和SNPs
1.RNA测序
研究者从当地医院共收集到2例I期、2例II期和2例III期胃癌肿瘤组织及其相应的远端正常组织样本,并对其进行RNA测序分析,序列比对等,最终获取其转录组,SNPs等信息。
2. 识别差异表达基因
首先,基于FPKM的基因表达值识别胃癌不同分期肿瘤和正常组织对之间的DEGs。共检测到差异表达基因2207个,其中上调基因972个,下调基因1235个。其中,在I期有326个上调基因,621个下调基因;在II期有381个上调基因,425个下调基因;在III期有265个上调基因,189个下调基因。不同分期的特异性基因有一定程度的交叠,其中I期和II期共有106个交叠基因,41个基因在II期和III期之间交叠,58个基因在I期和III期之间交叠。DPT、CYP2C9、HRASLS2等基因在胃癌的三个阶段均发生差异表达(图1A)。差异表达基因在人类各染色体上的频率分布如图1B所示。结果表明,在1号和2号染色体上发生差异表达的基因最多,在13、18和21号染色体上识别到的DEGs数量相对较少。
图1. 差异表达基因的分布
3. 基因的功能富集分析
分别对不同分期上下调的基因进行GO和KEGG富集分析,可以富集到免疫,代谢等与癌症相关的多个通路。
4. 基于DEGs的蛋白质-蛋白质相互作用网络
基于STRING数据库分别预测各肿瘤分期差异表达基因在蛋白水平上的潜在相互作用,并基于Cytoscape中的MCODE算法识别网络中的密集连接区域(图2)。KEGG通路富集分析显示,I期中的基因簇主要包括细胞周期、DNA复制等相关生物学过程的基因;II期中的基因簇主要由剪接体和氧化磷酸化相关基因组成; III期中趋化因子信号通路和VEGF信号通路显著富集。
图2. 基于DEGs的蛋白质-蛋白质相互作用网络
5. 转录因子筛选及网络分析
在I、II、III期的患者中共鉴定出39个发生差异表达的转录因子。在I期有14个差异表达的转录因子(7个上调,7个下调),在II期有16个转录因子(9个上调,7个下调),在III期有10个转录因子(4个上调,6个下调)。研究者进一步构建三个阶段患者中转录因子及其下游基因的相互作用网络(图3)。
图3. 转录因子及其靶基因之间的相互作用网络
6.不同分期胃癌患者的SNP分析
基于对人类染色体上不同胃癌分期患者基因的SNP信息进行分析,研究者发现 SNP分布在23条染色体上,其中主要在19号,17号和22号染色体上富集,在X染色体上4号等染色体上的SNP数量最少。
通过GATK分析预测SNP基因,并进行KEGG富集分析,发现其显著富集到凋亡、MAPK等癌相关信号通路。
为进一步了解SNP基因的功能,研究者还进行GO富集分析,可以显著富集到免疫系统,细胞周期等相关生物学过程(图4)。
图4.SNP基因的功能富集分析
今天的内容就是这些,内容很套路,很流程,简单来说就是三步,识别差异,构建网络和富集分析。旧瓶装新酒可以,旧瓶装旧酒就大可不必啦。希望大家都能认真思考,找到自己工作的创新点哦~
参考文献:
Identifcation of stage-specifc differentially expressed genes and SNPs in gastric cancer employing RNA-Seq based transcriptome profling