今天要给大家介绍一篇2021年8月份发表自Frontiers in Oncology(IF: 6.244)文章,在该研究中,作者确定了CLM潜在生物标志物,它们将为早期诊断和预后提供潜在价值,并促进CRC和CLM的分子靶向治疗。
Identification of Candidate Biomarkers and Prognostic Analysis
in Colorectal Cancer Liver Metastases
文章背景
结直肠癌(CRC)是全球最常见的恶性肿瘤之一。据全球癌症统计,2020年报告的新发CRC病例超过190万例,死亡93.5万人,约占癌症病例和死亡人数的十分之一。总体而言,CRC的发病率在全球排名第三,死亡率排名第二。结直肠癌肝转移(CLM)是造成这种高死亡率的主要原因之一,发生在30%的CRC患者中,占相关死亡人数的三分之二。此外,超过50%CLM患者在切除术后2年内复发。
大量临床数据表明,肝脏是结直肠癌转移最常见的靶器官。迄今为止,该病进展过程中肝转移形成和进展的相关机制已被广泛研究,但其发病机制尚未完全阐明。事实上,CLM的发生和发展涉及多种功能信号通路中的无数表观遗传和遗传变化。这些不同的网络容易受到遗传和表观遗传事件的调控,导致基因表达的多样性。因此,需要利用生物信息学方法,从而筛选出合适的生物标志物并指导临床全身预防、诊断和治疗方案的选择。
文章结果
差异基因的筛选和鉴定
作者从GEO数据库(GSE6988、GSE14297和GSE81558数据集)中筛选了来自CRC和CLM组织样本的微阵列数据集。其中,GSE6988基于GPL4811平台,于2008年2月1日发表。来自这个人类CLM标记的全基因组数据集,包括123个样本,其中包含25个正常结直肠粘膜、27个原发性CRC、13个正常肝组织和27个肝转移,以及20个没有肝转移的原发性CRC组织,作者从26对有转移性肝组织的原发性CRC中选择了样本数据。GSE14297基于GPL6370平台,于2009年1月13日发表。来自这个原发性CRC和相关肝转移表达谱数据集,共包含48个样本,包括18个初级CRC,18个肝转移、7个正常结直肠粘膜组织和5个正常肝组织,作者从18对CRC和肝转移组织中选择数据。GSE81558基于GPL15207平台,于2017年6月12日发布。该CRC患者肝转移数据集共51个样本,包括23个原发性CRC,19个肝转移和九个正常结肠黏膜组织,作者选择了19对CRC原发癌和肝转移组织样本数据。然后,作者使用GEO2R对原始数据进行预处理和过滤,以p<0.05和[log FC]>1作为筛选标准,最终分别从这三个表达谱数据集中提取了315、233和117个差异(图 1A-C)。使用FUNRICH软件,作者从这三个基因组数据集中鉴定了35个一致的DEG(图2A),包括4个下调和31个上调的基因(图2B、C)。此外,R软件(版本3.6.3)用于执行聚类分析并绘制热图以显示来自三个数据集的35 DEG的表达(图1D-F)。
为了确认从GEO数据集中识别的DEG的可靠性,作者还分析了来自GEO数据库的GSE49355数据集以进行验证(图2D、E)。根据使用FUNRICH软件的VENN图结果,在本研究中鉴定的35个DEG中有30个在GSE49355数据集中显著过表达。此外,GSE49355数据集中的四个基因也显著下调,只有1个上调基因不存在于基因列表中(图2F)。上调和下调基因的表达模式相似度为97.14%,表明本研究鉴定的候选基因是可靠的。
图1
图2
GO富集分析和信号通路富集分析
GO 富集分析
来自注释、可视化和集成发现数据库(DAVID)的GO分析表明,在生物过程中(图3A),DEGs在许多过程中富集,例如急性炎症、翻译后蛋白质修饰、血小板脱粒、调节凝血和纤溶系统以及调节蛋白质激活级联反应。对于分子功能(图3B),DEGs主要富集在调节丝氨酸内肽酶抑制剂和水解酶活性、肽酶调节剂活性、糖胺聚糖结合、肝素和胶原结合等过程中。在细胞成分(图3C)中,DEGs主要富集在介导细胞外空间、细胞外区域、内质网、内膜系统、血小板α-颗粒和细胞质囊泡的过程中。
这些结果表明,DEGs主要富集在细胞外区、内质网和血小板α颗粒中,主要参与炎症、血小板脱颗粒、肽酶调节、蛋白质代谢以及凝血和纤溶系统的调节。
信号通路富集分析
分析结果表明,候选DEG具有共同的信号转导途径和反应过程(图3D),主要富集在补体凝血级联、药物代谢(即代谢酶,如细胞色素P450)和类固醇激素合成中的那些。作者还发现这些DEG在以下途径中发挥作用:化学致癌作用、异生素代谢通过细胞色素P450、亚油酸代谢、调节胰岛素样生长因子(IGF)转运和摄取的胰岛素样生长因子结合蛋白(IGFBP)、翻译后蛋白磷酸化、血小板脱颗粒、激活、聚集和其他信号通路.其中,补体凝血级联、血小板活化、脱颗粒和聚集、IGFBP-IGF信号和药物代谢是关键的信号转导途径。
图3
PPI 网络筛选和富集分析
关键基因的筛选与模块化分析
作者使用STRING数据库将35个DEG过滤成包含35个节点和189条边的PPI网络(图4A),平均节点度为10.8,平均局部聚类系数为0.66,PPI浓度p值小于1e-16。其中,35个DEG中有4个(AADAC、FOXF1、CTSK和VNN1)不属于PPI网络;因此,作者最终筛选了31个DEG为关键基因的。同时,利用k-means聚类分析,将35个DEGs分为三类,选出26个关键基因。然后,作者使用CYTOSCAPE去除无节点基因,并根据节点之间的交互和表达制作PPI网络图(图4B、C)。在CYTOSCAPE中使用MCODE模块分析,筛选出18个候选基因(图4D-H)。
基于使用STRING数据库的PPI网络分析,作者将26个关键DEG分为两个模块。模块1主要调节IGFBP-IGF信号通路,而模块2包括属于补体凝血级联。具体而言,模块1包括基因IGFBP1、SPARCL1、CDH2、ITIH2、F5、APOA2、TF、CP、FGA、SERPINC1、F2和PLG。模块2包括基因C4BPA、F5、FGA、SERPINC1、F2、PLG、SERPINA5和VTN。F5、FGA、SERPINC1、F2和PLG同时参与这两种途径。此外,FMO3、CYP2E1、CYP3A4和UGT2B4在药物代谢-细胞色素P450信号通路中富集。根据三个功能团的分析,26个DEG在细胞外区富集,7个DEG在血小板α颗粒中富集,18个DEG在内质网富集。
图4
基因集富集分析(GSEA)
作者使用GSE6988基因集进行富集分析。从GSE6988数据集中共筛选出9587个有效基因,基因组大小过滤标准设置为“最小等于15,最大等于500”。总共去除了8722个基因集,剩余的17002个基因集用于富集分析。根据分析结果,在CLM表型中,有6014个基因集上调;FDR<25%条件下,970个基因集显著富集;在p<0.01条件下,440个基因集显著富集;在p<0.05的条件下,945个基因集显著富集。在CRC表型中,10988个基因组被上调;17个基因在FDR<25%条件下富集;在p<0.01条件下,219个基因集显著富集;在p<0.05条件下,898个基因集显著富集。本研究以“|NES|>1, NOM p-val<0.05, and FDR q-val<0.25”作为显著通路富集的标准,并且从CLM组和CRC组中选择了富集评分最高的20个基因集(图 5)。结果表明,以血小板为中心的血细胞和内皮细胞的活化(导致细胞运动、分泌、酶产生的改变)、Ca2+代谢和内吞作用(图5D)、炎症和血管通透性破坏在CLM组中富集。此外,GSEA基因序列中前100个基因中有14个属于先前筛选的18个DEG。
图5
表达分析
作者使用ONCOMINE(图6)、GEPIA2和UALCAN数据库分析了18个候选基因在癌组织和邻近正常组织中的表达情况。结果显示SPARCL1、CDH2、CP、HP、TF和SERPINA5在癌组织中均显著下调(p<0.05;图7A-F)。此外,CDH2、SPARCL1和TF在CRC的病理阶段显著差异表达(p<0.05;图7G-L)。此外,SPARCL1、CP和TF的表达式IV期结肠癌和正常之间存在显著差异(p<0.05;图8A-F),而SPARCL1、CDH2、CP和SERPINA5在直肠腺癌和正常组织之间存在显著差异(图8G-L)。
图6
图7
图8
预后分析和相关分析
最后总共有六个基因被鉴定为候选生物标志物。生存曲线分析结果表明,有两个DEGs(CDH2和SPARCL1)被认为是预后因素(p<0.05)。此外,发现CDH2和SPARCL1表达水平与预后显著相关。同时,基于结合对数秩p检验的Kaplan-Meier曲线,CDH2与CRC的总生存期(OS;p<0.01)和无病生存期(DFS;p<0.01)明显相关(图9,图10A-D)。此外,观察到CDH2和SPARCL1的表达之间有很强的相关性(图10E-H)。
图9
图10
为了揭示使用TCGA数据库识别的关键基因是否在其他CRC病例中表现出相同的预后价值,作者使用GSE17538数据集和GSE50760作为验证集。HPX、CDH2、VTN、IGFBP1、CP、HP、ORM2、APOA2、TF、HRG、PLG、SERPINA5、ITIH2、SERPINC1、FGA、F2和GC在CLM样品中上调。同时,SPARCL1、ORM2、IGFBP1、FGA、APOA2和VTN显著差异表达(校正p值<0.01)。此外,CDH2和SPARCL1与CRC的不良预后相关,表明两者都可能代表CRC不良预后的潜在遗传生物标志物,并可能为未来的CRC治疗提供潜在价值。(图11)。
作者还观察到CDH2、CP、HP、TF和SERPINA5在肝转移癌组织中上调,在原发癌组织中下调;而SPARCL1表现出相反的表达模式。此外,与CRC组织相比,SPARCL1、CDH2、CP、HP、TF和SERPINA5在正常结直肠组织中的表达相对较高。此外,与肝转移癌组织相比,CP、HP、TF和SERPINA5在正常肝组织中表达上调,而CDH2和SPARCL1的表达在两种组织间无显著差异。因此,在观察到的组织中,SPARCL1在正常结直肠组织中表达最高,CDH2在正常肝组织和肝转移癌组织中表达最高,而CP、HP、TF和SERPINA5在正常肝中表达最高。
图11
遗传改变和共表达分析
作者使用TCGA的Pan Cancer Atlas对六个关键基因(CDH2、SPARCL1、CP、HP、TF和SERPINA5)的分子特征进行了综合分析。结果表明,CDH2、SPARCL1、CP、HP、TF和SERPINA5分别在16%、7%、10%、6%、8%、8%的CRC样本中发生了突变。此外,6个关键基因在213个(36%)样本中发生了改变。mRNA表达增强是这些样品中最常见的变化。作者接下来探索了这些枢纽基因的潜在共表达,发现CDH2、SPARCL1、CP、HP、TF和SERPINA5的表达表现出显著的相关性,在CDH2和SPARCL1之间观察到的关联最强(图12)。
图12
使用临床组织样本进行预后基因验证
为了进一步证实具有预后价值的hub基因的预后价值,作者使用免疫组织化学(IHC)染色检测正常组织和肿瘤组织中CDH2和SPARCL1的蛋白表达。结果表明,与正常组织相比,CDH2和SPARCL1在原发性结直肠癌组织中显著低表达。同时,SPARCL1在正常结直肠组织中相对高表达,CDH2在正常肝组织中高表达(图13),与作者的研究结论一致。
图13
文章小结
总之,补体凝血级联和IGFBP-IGF通路可能是CLM的关键信号通路。作者发现HPX、SPARCL1、CDH2、VTN、IGFBP1、CP、HP、ORM2、APOA2、TF、HRG、PLG、SERPINA5、ITIH2、SERPINC1、FGA、F2和GC是关键基因,SPARCL1、CDH2、CP、 HP、TF和SERPINA5发挥着核心作用。 此外,CDH2和SPARCL1与CRC的预后显著相关。识别这些候选基因并针对这些特定途径可能更准确地诊断、预防和治疗CRC和CLM。
该文章所用的方法简单,利用数据库分析,全程无代码且分析思路清晰,看了这篇文,对于想要研究肿瘤相关的生物信息学的人,你还不行动起来嘛!