随着测序技术的发展,关于癌症患者的各个组学层面的数据都大量涌现——突变、拷贝数、转录组、甲基化等。如何利用好这些不同组学的数据呢?
今年六月份刚刚发表在Nature Machine Intelligence(IF=16.65)的文章就给咱们提供了方法,今天小编就给大家好好介绍一下这篇文章。
这篇文章来自德国马克斯普朗克分子遗传学研究所(MPG),提出了一种能够整合多组学数据与图卷积网络来识别癌症基因的方法,同时还能揭示癌基因相关分子机制(如图1)。
文章背景:
目前已知癌基因目录的完整性仍存在争议,而越来越多可用的高通量分子数据为癌症基因的识别带来了计算上的挑战。为了利用多组学数据中包含的互补信息,需要开发一种能够整合不同数据层到单一框架的模型。
最近出现的图深度学习(Graph deep learning)能够将图结构纳入深度学习框架,特别是图卷积网络(Graph convolutional network, GCN)能够根据节点相关的特征向量以及网络的拓扑结构,来对网络中未标记的节点进行分类,使基于图的数据与特征向量能够以自然的方式集成。
方法设计:
(1)方法简介:
作者提出了一种基于GCNs的可解释的多组学的图集成(Explainable multiomics graph integration, EMOGI)方法来识别癌症基因。
EMOGI以图卷积网络(GCNs)为基础,以半监督的方式进行训练,用来识别推定的癌症和非癌症基因。它利用作为节点特征的多维多组学数据和蛋白-蛋白互作关系(PPI),能够从数据中学习更复杂的非线性结构(如图2)。
该文章中要识别的癌症基因被广义地定义为:当遗传、表观遗传或表达水平发生改变时,能够赋予细胞选择性生长优势的基因。
(2)方法应用数据简介:
作者将该方法应用于TCGA的16种癌症类型的多组学数据,包括了13097个基因的单核苷酸变异(SNVs)、12088个基因的拷贝数畸变(CNAs)、18898个基因的RNA-seq实验的基因表达信息、以及从450k Illumina微珠芯片中测量的12406个基因启动子区域的DNA甲基化数据。
(3)方法应用数据的过滤和预处理:
(4)方法的输入和输出:
文章结果:
一、EMOGI准确识别KCGs
作者基于多组学特征和公共数据库中的各种PPI网络,和高度可信的癌症和非癌症基因来训练EMOGI模型,并评估了其在不同网络中的性能。
(1)与其他方法的性能比较:
作者将EMOGI与其他癌症基因预测方法进行了比较,计算了每种方法在测试集上的精度-召回曲线下面积(AUPRC)。
比较的方法包括:
平均而言,面对6种不同的PPI网络,EMOGI的表现都优于其它所有方法(如图3a所示)。
为了更好地理解EMOGI和其他方法在正确恢复癌症基因方面的一致性,以及效果是否偏向于特定的数据集,作者评估了另外四组已注释的癌症基因(额外的独立测试集)的方法效果(如图3b)。通过计算AUPRC值,发现EMOGI的表现始终优于所有其他方法,这表明该方法在不同的癌症基因集上是稳健的。
(2)EMOGI受益于不同的数据表示和多组学集成:
作者进一步评估了哪种数据类型对EMOGI来说最具有信息量,并进行了几个扰动实验,扰动了网络的边或单个基因的特征向量(或同时扰动两者),评估了EMOGI相对于原始模型的性能。证明了网络和组学特征在确保模型的准确性方面都是重要的和非冗余的(如图3c)。
(3)泛癌分析提高了EMOGI预测癌症基因的能力:
作者还评估对泛癌症数据进行训练的EMOGI是否比对单一癌症类型进行训练的EMOGI更能检测癌症基因,作者建立了两种癌症的癌症特异性模型,即乳腺癌(BRCA)和甲状腺癌(THCA)。通过系统地比较癌症特异性模型和泛癌模型,观察到泛癌模型在识别癌基因时具有平均更高的敏感性,以及更高的AUPRC。
(4)EMOGI可以得到不同组学对于癌症基因预测的贡献度:
为了理解EMOGI的决策,需要提取有助于分类的最重要的特征。因此,在单独解释每个基因的预测时,使用分层相关性传播(LRP)进行特征重要性分析,不仅要识别出对每个基因分类贡献最大的组学特征,还要识别出它在PPI网络中最重要的直接互作partner。
基于选定的已知癌基因的科学文献,作者检查了是否可以通过LRP解释EMOGI模型而达到揭示它们分子特征的目的(如图4a)。
利用LRP规则提取PPI网络中相互作用伙伴对个体基因分类的贡献,并用于提供对肿瘤发生的更多机制的见解。例如,作者发现肿瘤抑制基因RB1最重要的互作partner是E2F1转录因子(已知受RB1调控)和组蛋白去乙酰化酶HDAC1(如图4b)。
二、新预测的癌症基因
在这一部分,作者研究了在已知癌症基因数据库中找不到的EMOGI最新预测的癌症基因(Newly predicted cancer genes, NPCGs),并对它们进行了更深入的分析。作者从所有6个PPI网络中收集了前100个预测结果,并提取了那些之前没有注释为癌症基因的基因。这得到了165个NPCGs的列表,然后用于进一步的分析。
(1)与已知癌基因互作的NPCGs:
作者发现EMOGI评分(代表一个基因成为癌症基因的概率)与该基因与已知癌基因互作的数量之间存在显著相关性(Spearman相关性为0.63,p值< 2.2 × 10 − 16,如图5a)。
所有NPCGs与至少有一种已知癌基因互作,且NPCGs与已知癌基因的互作数量(按节点程度归一化)显著高于其他基因(P-value=1.6 × 10 − 15,,双侧t检验,如图5b)
(2)NPCGs在肿瘤细胞系中是必需的:
为了从功能角度进一步表征NPCGs,作者系统地将其与Achilles47项目的数据进行比较,该项目是一个旨在识别必要基因的高通量筛选项目,即:在功能丧失实验中,如CRISPR-Cas9或RNAi,显著影响不同癌细胞系中细胞存活的基因。发现NPCGs在必需基因中显著富集(odds-ratio=3.1, P-value=4.9 × 10 − 11,Fisher精确检验,如图5c)。还发现NPCGs比已知癌基因和CCGs平均影响更多的肿瘤细胞系(如图5d)。
三、从单基因特性重要性到全局模型行为分析
这一部分,作者开始从全局理解预测结果,并为整个训练数据集成提取规则。首先,作者根据具有最大贡献程度的分子和网络特征,来对EMOGI的预测进行了分组,以实现对基因的分层。其次,通过利用基于网络的特征重要性得分,作者从PPI网络中提取出子网络,这些子网络揭示了癌症基因如何相互连接,以及如何与细胞通路中的其他复合物连接。
(1)对特征贡献的聚类揭示了不同的癌症基因组:
通过使用光谱双聚类算法,基于不同癌症类型的特征重要性LRP得分,从CPDB网络中对EMOGI的前1000个预测癌症基因进行了聚类。这产生了一个棋盘状的矩阵结构,基因被分组在一起,与一种或多种癌症类型中由一组共同的重要组学特征标记的预测相对应(如图6a)。
综合考虑各种因素(如图6b),这个双聚类分析可以区分主要相互作用驱动的(Cluster 1、4和12)、突变驱动的(Cluster 2、5、7和10)、甲基化驱动的(Cluster 11)和表达驱动的癌症基因(Cluster 3和8)。
(2)PPI网络中与癌症相关的强关联成分:
癌症网络模块-连接功能相关基因-有助于进一步加强对于细胞通路水平上癌症的起始和进展的理解。LRP框架可以识别对每个癌症基因分类贡献最大的相互作用基因。结合网络中所有基因的这些信息,建立了一个有向加权的基因-基因LRP贡献图,并研究该图的强连接成分(Strongly connected components, SCCs)。
作者鉴定了一个包含149个基因的大SCC,它对应于EMOGI模型用于执行癌症基因分类任务的核心交互组(如图7a),根据该SCC,作者推定了一些未发现的与癌症相关的新复合物。
文章小结:
通过利用数千名患者的不同组学分子数据的互补信息,作者提出了一种基于GCNs的可解释的多组学的图集成(EMOGI)方法来预测大型数据集(如TCGA的泛癌数据)中的癌症基因。
EMOGI是一种基于图卷积网络的可解释机器学习方法,通过结合多组泛癌症数据(如突变、拷贝数变化、DNA甲基化和基因表达)以及蛋白-蛋白相互作用(PPI)网络来预测癌症基因。EMOGI在不同的PPI网络和数据集上平均比其他方法更准确。一共识别了165种新的癌症基因,它们不一定具有频发出现改变,但与已知的癌症基因相互作用,对应了功能缺失筛选的必要基因。该方法打开精确肿瘤学的新途径,并可应用于预测其他复杂疾病的生物标志物。