预后一直是肿瘤分析的一个热点方向,今天小编要和大家分享的是去年五月发表在Briefings in Bioinformatics(IF:8.991)杂志上基于DNA损伤反应基因的人工神经网络模型预测低级别胶质瘤患者预后的文章。
An artificial neural network model based on DNA damage response genes to predict outcomes of lower-grade glioma patients
基于DNA损伤反应基因的人工神经网络模型预测低级别胶质瘤患者的预后
Jing PMID: 34015817 2020/05/20 Briefings in Bioinformatics(IF:8.991)
一、研究背景
低级别胶质瘤(LGG),包括世界卫生组织(WHO) II级和III级胶质瘤,占原发性成人中枢神经系统肿瘤的22%。虽然低级别胶质瘤(LGG)患者的预后优于其他患者,但由于其具有高度的异质性。因此,仍然缺乏能够准确预测每个患者个体预后的生物标志物。为了实现低阶胶质瘤的精准医疗,在今天介绍的研究中,作者探索了大部分DNA损伤反应(DNA damage response, DDR)基因在LGG患者中的异常表达,并借助人工神经网络模型分析与他们的预后的关联。
二、数据及方法
1. 数据的收集及处理:研究从The Cancer Genome Atlas (TCGA)及Chinese Glioma Genome Atlas(CGGA)收集LGG的患者的基因组和临床病理数据。同时从 Genotype-Tissue Expression数据库获取正常脑组织的原始读数计数数据。此外,作者也从cBioPortal或文献中获得TCGA数据集、免疫细胞基因集和DDR基因列表的突变、甲基化和免疫相关数据,包括碱基切除修复(BER)、检查点因子(CPF)、Fanconi anemia(FA)、同源重组修复(HRR)、错配修复(MMR)、核苷酸切除修复(NER)、非同源端连接(NHEJ)和转译DNA合成(TLS)。作者也从Molecular Signatures数据库获取KEGG基因集。接着排除临床信息不完整的样本并对表达数据进行标准化。最终研究共纳入TCGA数据库中493例患者和CGGA数据库中408例患者,作者对两组数据中检测到的185个DDR基因进行了分析。其中TCGA数据集和CGGA数据集分别作为训练集和独立测试集。
2. 预测神经网络模型的构建:作者将DDR基因在TCGA和CGGA数据集中的表达分别使用TCGA数据集的参数进行标准化。然后,在TCGA数据集上使用Python Library Theano对模型进行训练。输入层为DDR基因的表达,隐藏层的激活函数为tanh,最后一个隐藏层的输出用于Cox回归,损失函数定义为负条件对数似然结合L2调控。采用5倍交叉验证的方法对网络的结构和L2超参数进行优化。采用Cox回归计算线性预测指数(PI),用于预测各样本的死亡风险。
3. 生物信息学和统计分析:文章采用edgeR算法对DDR基因进行差异表达分析。通过GO和通路富集分析,研究潜在的生物学功能和通路。分析采用一致性聚类算法确定最优聚类数。利用聚类算法的统计显著性来评价聚类的稳定性。采用单样本基因集富集分析(ssGSEA)算法计算富集得分及主成分分析用于降维识别共表达基因。生存分析采用Cox回归和log-rank检验。采用一致性指数(C-index)和ROC等评价模型的预测能力。采用Pearson和Spearman相关检验来评估相关性。两组分类和连续数据比较采用卡方检验、Mann - Whitney U检验或t检验。
三、研究的主要内容及结果
1. DDR基因在LGG中的表达
由于LGG病例中,存在大部分DDR基因的异常表达,因此在文章的第一部分作者分析了DDR基因在LGG中的表达情况。作者分析发现与正常脑组织比较,LGG组织中185个DDR基因中79个表达上调,93个表达下调。此外,在IDH突变与野生型患者,或有和没有1p/19q共缺失的患者中,大多数DDR基因表达存在差异。这些基因的表达与甲基化水平呈显著负相关,与拷贝数呈正相关。此外,单因素Cox回归分析显示,有100个DDR基因表达对OS不利,18个DDR基因表达对OS有利(图1 A)。接着,为了进一步探讨DDR基因在LGG中的表达谱,作者进行了一致性聚类分析。根据一致性矩阵和累积分布函数图,将患者分为三组,分别为DDR亚型1、亚型2和亚型3(图1B)。这些亚型的silhouette宽度如图1C所示,说明每个亚型内的样本具有高度的相似性。此外,作者也观察到DDR通路富集评分发现除BER外,所有DDR信号通路在亚型2患者中激活最多,而亚型1患者比亚型3患者激活多(图1D)。进一步的分析也观察到亚型2患者OS和PFS最短,预后与其他亚型有显著差异(图1E)。此外,更多的2型患者没有IDH突变和1p/19q共缺失,且年龄大于40岁,组织学分级为3级(图1 F)。
2. 预后模型的构建
由于DDR基因的表达与LGG患者的临床病理特征和预后相关,在文章的第二部分作者利用TCGA数据集构建了基于DDR基因表达的预后模型。作者发现当节点数和隐藏层数增加时,模型的预测能力并没有明显提高,甚至下降(图2A和B)。接着根据Occam s Razor算法,为减少计算负担,作者选择了一种低容量的模型架构,即一个包含三个节点的隐藏层。最后,利用TCGA数据集建立预测模型。该模型由三个密集层组成:输入层、隐藏层和输出层。输入层包含185个神经元,即表达185个DDR基因,隐层包含3个神经元,输出层包含1个神经元(图2C)。而PI是根据隐含层的输出用Cox回归计算的。
3. 基于DDR基因的预后模型评估
接下来,在这一部分,作者对构建的预后模型进行了评估,作者根据PI的截止值将患者分为高危组和低危组。log-rank检验显示低危组患者生存期较长(图2D)。此外,作者也发现在TCGA和CGGA数据集中,PI的平均C-indexes显著高于IDH突变状态、1p/19q共缺失状态或二者组合的C-indexes(图2E)。而图2F展示了ROC分析结果。进一步的作者为了证实该模型的鲁棒性和优越性,按年龄、性别、组织学分级、癫痫发作史、治疗情况等对病例进行了分层分析。log-rank检验显示,在所有亚组中,高风险组患者的OS都比低风险组患者短(图3A-C)。图3D展示了CGGA数据集的AUC评估结果。此外,作者还发现,在低风险组中,一些IDH野生型患者的OS显著或略微显著高于高风险组中IDH突变型患者(图3E,F)。接下来为了评估该模型的独立预后价值,作者进行了多因素Cox回归分析。结果表明,PI、年龄和突变状态是两组数据中OS的独立危险因素(图4C)。如图4D所示,可以观察到nomogram图可以准确地预测生存概率。
4. 预后模型分析
由于人工神经网络是一种黑盒子,缺乏可解释性,在文章的最后一部分作者进一步探讨了潜在的模型和临床病理特征等之间的相关性。分析发现代谢相关通路如氧化磷酸化,免疫相关通路如T/B细胞受体和抗原加工呈递,肿瘤信号通路如P53和细胞周期信号通路在高风险患者和低风险患者中差异富集(图5A)。由于DDR通常与基因突变的存在密切关联,作者进一步分析了PI与突变状态的关系。如图5B-D所示,PI与突变负荷正相关,包括拷贝数变异、沉默突变和非沉默突变。分析也发现除了IDH突变状态和1p/19q共缺失状态(图5E和F)外,高风险组患者中更多的患者携带神经纤维蛋白(NF1)、表皮生长因子受体(EGFR)和PTEN突变,而低风险组患者中更多的患者携带capicua转录抑制因子(CIC)突变。在基因组不稳定性方面,高风险组患者表现出更高的杂合子缺失、非整倍体和肿瘤内异质性(图5G-I)。由于高风险和低风险患者的一些免疫相关信号通路存在差异富集,作者进一步分析PI与免疫微环境之间的相关性。结果发现高风险患者的免疫评分、间质评分和白细胞分数明显较高(图6A C),相关分析显示大多数免疫细胞的丰度与PI呈正相关(图6D)。作者还分析了PI与抗原加工提呈的相关性。结果发现较高的PI与单核苷酸变异(SNV)新抗原相关(图6E)。然而,高风险和低风险患者CNV新抗原没有差异。此外,T细胞受体(TCR)的多样性与PI呈正相关(图6F和G),但B细胞受体(BCR)的多样性与PI不相关。所有人类白细胞抗原(HLA)相关基因在高风险患者中都过表达(图6H)。最后,作者对11个免疫检查点抑制剂基因的表达谱进行了研究,如热图(图6I)所示,除了含有T细胞活化抑制剂(VTCN1)的V-set结构域外,其他所有基因在高危患者中均明显上调。
四、结论
到这里这篇文章的主要内容就介绍完了,作者以DDR基因为切入点结合人工神经网络算法构建了LGG的预后模型,并对模型的性能进行了分析与评估。纯预后文章可以发到将近9分,可见文章流程完整内容全面方法新颖,做预后的小伙伴不要错过呀。