大家好呀!今天给大家介绍一篇发表在Briefings in Bioinformatics(IF:11.622)上的文章。作者对TFs的表达,调控,互作,突变,表型和肿瘤患者生存情况进行了系统的研究。
摘要:
转录因子(TFs)通过控制基因表达在调控多种生物过程中起到关键作用。本研究,作者对TFs的表达,调控,互作,突变,表型和肿瘤患者生存情况进行了系统的研究。作者的研究发现,正常组织中TFs的表达水平低于non-TFs,肿瘤组织中TFs的表达水平较高。特定组织或癌症中特异表达的TFs可以作为潜在的标记基因。例如,TGIF2LX/Y在睾丸组织中特异表达,而NEUROG1,PRDM14,SRY,ZNF705A和ZNF716在生殖细胞肿瘤中特异高表达。作者发现不同TF家族中TF和靶基因共调控作用存在差异。一些小的TF家族具有蛋白质互作对,他们在转录调控中发挥核心作用。bZIP家族是涉及多条信号通路的TF家族。生存分析表明,大多数TFs会显著影响一种或多种癌症的生存情况。生存相关的TFs在相应的肿瘤中特异表达,表明他们的癌症驱动作用。对TF家族的系统分析为进一步研究TF的调控机制和TF在疾病中的作用提供了有价值的信息。
材料与方法:
1.从AnimalTFDB3.0获取人类TFs,共包括1665个TFs。从Human Protein Atlas获取37类正常组织的RNA表达数据。从TCGA获取33类癌症的RNA表达数据。从hTFtarget数据库获取TF-靶基因对。从HPRD和BioGRID获取TF-protein/TF-physical互作数据。从MalaCards,Ensembl Biomart和AnimalTFDB3.0获取TFs的表型数据。从KEGG数据库获取KEGG通路数据。从GSCALite数据库获取生存数据,TF的SNV和CNV数据。
2.使用SEGtool做鉴定SEGs(特异过表达基因)。
3.根据TF-靶基因数据,作者分析调控同一靶基因的TFs即共表达TFs。作者将基因的TSS上游50kb定义为核心区域来预测候选共表达TFs。此外,共表达TF必须是TF和靶基因在同一组织或肿瘤中表达。
4.作者对KEGG通路和表型数据中的TFs和排名前10的TF家族进行富集分析。
5.根据表达水平的中位数,将患者分为高表达组和地表达组。根据TF是否发生突变对样本进行分组。Cox回归分析评估突变组样本的风险比。KM分析两组的OS差异。
6.作者计算不同癌症中每个基因发生CNV的频率。使用Pearson相关性计算CNV频率和TF表达水平之间的相关性。
结果:
1.TF在正常组和肿瘤组织中的表达水平
作者分析了37个正常组织和33个肿瘤组织中1665个TFs的表达水平。其中分别有1641和1557个TFs至少在一个组织或一个肿瘤中表达。与non-TF相比,TF在正常组织中的表达水平较低(图1A)。有30个肿瘤组织中的TF表达水平低于non-TF,而在KICH,LAML和TGCT组织中TF的表达水平高于non-TF(图1B)。此外,作者随机选择相同数量的non-TF和TF的表达水平进行多次比较,其结果与总体比较结果类似。与癌旁组织相比,TF在7个肿瘤组织的表达水平较高而在9个肿瘤组织的表达水平较低(图1C)。TF在肿瘤组织的表达水平显著高于正常组织(图1D)。这些结果表明,从正常组织到肿瘤组织TF的表达水平受到扰动,说明TF在癌变过程中发挥重要作用。
2.正常组织和肿瘤组织中特异表达的TFs
为进一步分析特异表达TFs,作者分别在正常组织和肿瘤组织中鉴定到236和476个特异表达TF(SEG-TFs)(图2A)。正常组织中的SEG-TFs中有223个TFs特异高表达(SEG-H-TFs)和13个TFs特异低表达(SEG-L-TFs)。睾丸和大脑皮层中的SEG-TFs数量最多(图2A)。此外,有187个TFs在单一组织中特异表达,可以作为单一组织中的标记基因。例如,有14个TFs在睾丸组织中高表达,如TGIF2LX/Y和HMGB4。一般来说,共有SEG-TF多的组织具有相似的生理功能和细胞组成。例如,十二指肠和小肠组织共有8个SEG-TFs,如ATOH1,CDX1和CDX2。
在癌症的467个SEG-TFs中有322个在一种肿瘤组织中特异高表达,有13个SEG-TFs仅在一种肿瘤组织中表达。1665个TF根据保守的DNA结合与分为73个TF家族,每个家族的TF数量不同(图2B)。与正常组织相比,肿瘤组织中特异表达的TF数量更高(图2C)。例如,在ESR-like家族中有9个是肿瘤组织的SEG-TF。
3.TF调控靶基因
作者从hTFtarget数据库中收集了2712247个TF-靶基因对,涉及56个TF家族的542个TF和19369个靶基因。因此,325个TF调控1000多个靶基因(图3A),其中SPI1是靶基因数量最多的TF。有35个基因仅受一个TF调控,大多数是zf-C2H2,Homeobox和ETS家族成员(图3B)。例如,有12个基因仅受zf-C2H2家族CTCF的调控。一些TF家族成员具有数百上千个TF-靶基因对(图3C)。然而,一些TF数量较少的TF家族也有很多TF-靶基因对,例如zf-GATA和STAT家族(图3C和3D)。此外,这些家族中不同TF的靶基因数量差异较大(图3D)。这些结果表明同一家族的不同成员可能参与不同的功能。
4.TFs共调控
作者共发现56个TF家族参与共调控(图3E)。CBF,NF-YA和NF-YB等家族完全参与共调控,而CSRNP-N,DACH和GCFC等家族没有参与共调控(图3E)。MYC和GATA1共调控数千个靶基因,已有报道表明GATA1/MYC在白血病细胞系K562中发挥作用。
5.TF-蛋白质互作
为建立TF-蛋白质互作的全基因图谱,作者整合HPRD和BioGRID的TF-蛋白质互作对。最终共得到44729对TF-蛋白质互作对(图4A)。TF-TF互作对和TF-蛋白质互作对类似。一些ESR-like,MH1和P53等小的TF家族有大量TF-TF互作对(图4B)。P53家族中仅有的3个TF均与其他39个TF家族互作(图4B和4C),表明P53家族的重要性。此外,一些TF家族与其他TF家族互作。例如MH1家族有8个TF与42个TF家族中的179个TF互作(图4A和4C)。
6.TF和疾病
大约有8%的蛋白编码基因是TFs,TFs与疾病表型密切相关。有1138个TFs具有表型数据,333个TFs具有KEGG通路数据。富集分析表明与癌症中转录调控异常有关的转录因子数量最多(图5A)。此外,TFs在其他疾病相关通路中富集,如成熟性糖尿病和调节干细胞多能型信号通路等(图5A)。一些TF家族显著富集于特定的疾病类型中,这可能与TF家族的SEGs和功能密切相关。因此,作者对20多个TF家族进行KEGG富集分析(图5B)。结果表明,TF-bZIP家族中有54个TFs在多条通路中显著富集。
7.TFs显著影响癌症生存情况
作者对33个肿瘤组织的TF表达水平和预后进行KM分析。结果表明,有1448个TFs至少与一种癌症的预后显著相关(图6A)。其中有3个TF与11种癌症预后有关,有125个TF仅与一种癌症预后有关。其中KIRC和LGG生存相关的TFs数量最多。这些TFs可能在肿瘤发生和预后中发挥重要作用。结合SEG分析,作者鉴定到40个TF与癌症预后显著相关,可以作为癌症的预后标志物。在大多数癌症中,50%的TFs与预后较好有关(图6B)。bHLH,TF-bZIP,Homeobox和zf-C2HC等TF家族几乎在所有癌症中均存在显著TF(图6C)。TGCT中仅有一个与生存相关TF(FIGLA),而NDT80/PhoG,GCFC和NCU-G1家族中没有与生存相关的TF。此外,对排名前100个TFs进行生存分析,这些TFs影响11种癌症的预后(图6D)。排名前4个TFs与总生存期显著相关(图6E)。
8.TF突变
接下来,作者对TFs的SNV和CNV进行分析。为鉴定癌症发展中的关键基因,选择至少在一种肿瘤中突变频率高于10%的TF进行分析,共得到80个TFs。这80个TFs在癌症中的突变情况如图7A所示。其中UCEC,SKCM和COAD是发生TF突变数量最高的三种癌症。TP53是突变频率最高的基因。TP53在UCS中的突变频率为91.2%,OV中的突变频率为87.7%,ESCA中的突变频率为85.9%和READ中的突变频率为85.6%。此外,作者进一步分析了TF突变与肿瘤生存情况的相关性。有43个TFs突变与肿瘤生存显著相关(图7B),其中有33个TFs为高突变TFs,70%以上的TFs与低生存率有关(图7B)。例如,ACC中有9个TFs的突变与预后不良有关。此外,作者计算了不同癌症中每个基因的CNV频率并分析其与表达的相关性。相关性分析表明,60个TFs的CNVs与表达显著相关(图7C)。
结论:
作者全面分析了全基因组范围内肿瘤组织和正常组织中的TFs的表达水平,特异表达情况,靶基因共调控情况,TFs与肿瘤生存情况和TFs的突变情况。本研究为研究人员理解转录因子如何发挥调控作用,为今后TF调控网络的研究奠定基础。TF的突变和生存分析表明,一些关键TF基因可以作为潜在的标记基因。本研究为人类转录调控研究提供有价值的信息。