合成致死能够作为一种治疗方法,利用癌症细胞的易感性通过识别药物靶点选择性地影响异常癌症细胞的生存。因此许多癌症研究都在寻找额外的合成致死靶点。小编今天要和大家分享一篇今年八月份发表在Molecular cancer(IF:27.4)杂志上通过机器学习预测合成致死的文章。
Uncovering cancer vulnerabilities by machine learning prediction of synthetic lethality
通过机器学习预测合成致死揭示癌症易感性
一.研究背景
合成致死率描述了两种扰动之间的遗传相互作用会导致细胞死亡,但这两种扰动中任何一种单独事件对细胞活力都没有显著影响。因此这一概念可用于特异性靶向肿瘤细胞。目前CRISPR活性筛选已经被广泛用于识别癌症的易感性。然而,从活性筛选系统推断遗传相互作用的方法仍然十分缺乏。因此今天小编和大家分享的文章描述了在泛癌中推断合成致死率(PARIS),这是一种识别癌症易感性的机器学习方法。PARIS通过将CRISPR活性筛选与基因组学和转录组学数据相结合,预测了Cancer Dependency Map中数百个癌细胞系的合成致死(SL)相互作用。
二.研究数据及方法
1. PARIS生物信息管线:分析中使用了CRISPR-Cas9筛选依赖得分,从DepMap下载表达和突变数据。使用FATHMM-MKL预测单核苷酸变异的致病性,编码评分高或注释为破坏性或TCGA热点的突变为致病性。细胞系致病基因未突变编码为0突变编码为1。为了在所有细胞系中选择突变基因和解释基因依赖性表达,作者进行了基于RF的特征选择。对于CRISPR-Cas9中的每个基因,作者使用基尼系数或原始排列重要性评分和突变或表达数据作为独立变量,运行四次Boruta算法。作者也使用了校正基尼值作为重要性评分的RF算法。在每个循环中,Boruta对每个重要性分数高于shadowMax的特征分配一次hit(+1)。对于每个特征,计算hit计数,直到它们远高于或低于随机的预期值。高的情况下特征被确认,低的情况下征被拒绝并删除,其他非重要特性将在下一次迭代中再次测试。分析提取了用于解释依赖评分的重要性特征,计算每对基因的相关系数来了解关系的方向。作者从突变依赖对中选择正相关,从表达依赖对中选择负相关,自配对被移除。重要性分数按0到1之间的分组进行评分,其中1是组中高的分数。
2. 基因对分析:研究中所选基因对的重要性评分按密度分布和直方图绘制,直方图根据评分方法(基尼系数、原始排列和校正基尼系数)和特征队列(表达或突变)分组。为了设置一个置信阈值,对聚类长尾应用头尾断点算法。这个过程被递归地应用,直到头不再是分布中的少数。最后一个断点用作识别高置信度对的阈值。为了比较不同的重要性评分方法,在接下来的分析中只使用三种方法所选择的基因对。每一对选定的基因对,如果其重要性评分高于任何一种方法的阈值,则被标记为高置信度;如果其重要性评分低于所有方法的阈值,则被标记为低置信度。对于每个选择的基因对从STRING数据库检索组合得分。研究还计算了相互作用基因的频率在不同组中选择的总频率。
3. R shiny app:作者建立了一个可视化的R shiny app,特征选择步骤中选出的基因对被保存到a.csv文件其中包括:两个基因名称,Pearson相关系数,重要性得分,重要性得分方法等。A.csv文件包含所有筛选基因的基因名称、中位数、变异系数、标准差和依赖评分的范围。数据可以表示为一个交互有向图,其中每个节点代表一个基因,每个边代表一个关系;箭头从突变或失调的基因开始,到达依赖基因。边缘的颜色表示突变或表达,而宽度与相关系数的绝对值成正比。节点的颜色表示依赖评分的中位数。这个R shiny app允许用户筛选基因对,选择两个特征队列(突变和/或表达)中的一个或两个,并对它们应用独立的阈值,选择一种重要得分方法。
4. TCGA和GTEX数据分析:TCGA 和GTEX BRIP1及ALDH2表达数据从 Xena browser 获取,相关性使用皮尔逊系数计算。
5. TCGA差异基因表达分析:根据ALDH2表达水平对样本进行排序,顶部和底部2%的样本分别作为高表达和低表达组。用DESeq2进行差异基因表达分析。富集分析使用EnricR。
6. 实验:研究中的实验部分包括细胞系及细胞培养:产生稳定的Cas9阳性细胞系、TYMP阳性细胞系、ALDH2 及CDKN2A敲除细胞系及C-MYC阳性细胞系。研究中使用了第三代慢病毒载体,转染的gRNAs。混合CRISPR筛选、也进行了细胞生存能力分析、克隆形成实验,RNA提取、cDNA合成和RT - qPCR、蛋白印迹、免疫荧光检验法、显微镜检验及活细胞成像等技术。
三、研究的主要内容及结果:
1. PARIS方法:文章的第一部分作者主要介绍了开发的推断癌细胞易感性的PARIS方法,核心是基于RF算法来评估每个独立变量(突变或表达)相对于应答变量的重要性(依赖得分)。作为应答变量,作者基于CERES管道检索基因依赖评分数据,该数据可以从CRISPR-Cas9筛选的校正了gRNA活性和拷贝数效应结果中估计基因重要性水平。此外,作者从DepMap的CCLE中检索突变和表达数据。利用这些数据,作者应用了一个基于机器学习算法的特征选择步骤,该算法旨在通过数百个癌症细胞系的基因突变或错误调控,解释来自CRISPR-Cas9筛选的某些基因依赖(图1a)。为此,作者选择了Boruta算法,迭代地删除相关性明显低于随机的特征(图1b)。为了校准PARIS,作者比较了两个重要的指标来选择显著特征:1)杂质的平均减少(基尼重要性)。2)精度的平均下降(原始排列的重要性。
2. 质量评估的重要性得分
在这一部分,作者开始关注作为癌症治疗潜在靶点的DDR相关基因,使用625个癌细胞系的依赖评分作为应答变量,突变和表达数据作为特征及预测因素,手工筛选了549个基因。接着作者使用Boruta算法选择能够解释CRISPR-Cas9筛选中每个遗传靶点依赖关系的致病突变或调控错误的基因。作者提取了选定的基因对以及特征选择中检索到的重要性得分(图1b),结果发现MLH1是解释WRN依赖最重要的特性之一。接着为了识别可能代表潜在SL相互作用或癌症细胞系脆弱性的相互作用,作者关注依赖突变对的正向关系和依赖表达对的负向关系,使用相关系数来检索关系的方向,结果发现WRN依赖评分与MLH1表达负相关,ARID1B依赖评分与ARID1A突变正相关,这表明了PARIS检测SL互作的能力(图1c)。接下来作者研究了不同算法得到的重要性得分的一致性,发现仅考虑两种算法选择的相互作用时,突变预测显示出很强的相关性,但对表达的预测显示出中等相关性(图2a)。作者推断这些差异可能源于表达数据相对于突变的数据,在PARIS实现树的构建过程有更多的分裂点。由于基尼系数很容易对表达数据预测给出更高的分数,作者猜测它可能会引入偏差,为此应用了一种额外的RF算法,使用校正基尼系数重要性得分来改进特征选择步骤(图2a)。为了选择置信度最高的基因对,作者基于头/尾断点聚类方法定义了重要性得分的类别(图2b)。结果也发现校正基尼方法中较少基因对P值显著但更多基因对却被识别出较高的重要性得分(图2c)。基于这些分析,作者将头/尾断点聚类方法的最后一个断点作为识别具有最高置信度基因对的阈值。接着作者研究了三种方法的鲁棒性,以便能够高可信度地识别相互作用基因。作者也从STRING数据库检索互作信息。作者还考将三种方法选择的低置信度基因对作为第四组。接着作者分析了表达数据识别的基因对,并比较了来自STRING数据库的综合评分,结果发现与基尼系数和低置信组相比,属于修正基尼系数和原始排列组的组合分数更高(图2d)。当只考虑基于实验的互作时,原始排列高置信度选择对的得分最高。然而总的来说校正的基尼系数组和原始排列组中,互作蛋白对的百分比都要高得多(图2e)。而在突变数据中没有观察到三个高置信组之间的差异,只有低置信度组在组合得分、基于实验的交互得分和交互百分比方面表现出较低的值。因此作者认为原始排列法在识别高可信度的基因对方面非常稳健,而修正的基尼系数法可以显著提高选择的可信度,特别是当用表达数据作自变量时。
3. DDR基因间合成致死相互作用的预测
在这一部分作者为了直观的数据浏览和可视化,基于PARIS结果构建了一个R shiny app。在这个app中,选择的基因对被表示为一个有向图,其中的箭头指向从有缺陷的基因到依赖基因。用户可以用不同的筛选方法探索交互作用,并将结果导出为数据表。在DDR基因的背景下,为了选择和分析推断出的具有最高可信度的基因对,作者分别对表达和突变的预测使用了阈值为0.4或0.5的量级重要性评分。结果发现该队列中识别的几个基因对是同源的,它们在蛋白质复合物具有内在相关和更有可能显示SL相互作用的功能。在考虑表达数据时,再次观察到STAG1- STAG2之间的高置信相互作用以及SMARCA2和SMARCA4之间的双向相互作用(图2f)。
4. PARIS 预测癌细胞系依赖TYMS
在确定了PARIS可以识别高可信度SL互作之后,作者接下来关注识别到的之前未被描述的TYMS-CDKN2A易感性。PARIS发现具有CDKN2A破坏性突变的细胞对TYMS敲除敏感(图2f及图3a)。CDKN2A是一种肿瘤抑制基因。它编码两种蛋白分别为p14和p16。TYMS是将dUMP转化为dTMP的酶。TYMS在补充复制所需的核苷酸库中起着重要作用。作者为了证实PARIS预测并测试癌细胞对TYMS抑制的敏感性,用增加剂量的PMX处理了一组具有不同CDKN2A遗传背景的细胞系,并测量了细胞活力来分析合成致死率。尽管PARIS预测是基于CDKN2A致病性突变,但作者不仅在CDKN2A无义突变细胞系也在纯合缺失的细胞系中观察到显著的PMX敏感性,不过CDKN2A成熟细胞系没有观察到(图3b,c)。此外,作者也发现CDKN2A成熟细胞和缺陷细胞之间IC50值存在显著差异。接着为了更好地了解CDKN2A突变或缺失的癌细胞系对PMX的应答,作者对参与胸苷激酶代谢途径的蛋白进行免疫印迹。结果发现PMX处理后,不管CDKN2A状态如何,细胞的TYMS、TK1和DHFR蛋白水平至少上调了两倍,而且PMX处理对CDKN2A缺陷细胞影响最大,PMX处理后CDKN2A缺陷细胞强烈诱导凋亡(图3d)。作者也发现这些细胞对低剂量或高剂量PMX的敏感性通过补充胸苷激酶得以恢复(图3e),此外在一些对PMX敏感性增加的细胞系中观察到TYMP过表达,它们分别携带CDKN2A基因无义突变或CDKN2A位点缺失(图3c)。由于PARIS也预测了TYMP过表达与TYMS依赖性相关,作者测试了CDKN2A缺陷的细胞中,TYMP过表达与PMX敏感性的关系。在稳定表达Cas9的细胞中转染靶向TYMP的gRNA,与对照组gRNA转染细胞相比,不会导致PMX敏感性的任何变化,这表明仅表达TYMP不足以控制TYMS依赖性(图3f)。接下来,为了刻画TYMP和p14/p16在调节PMX敏感性中的作用,作者使用MDA-MB-157细胞系观察到足够高水平的p14/p16和TYMP,以及转染靶向TYMP和CDKN2A的gRNAs。TYMP的消耗没有显示出对PMX的额外敏感性,CDKN2A的消耗显著增加了这些细胞对PMX的敏感性(图3g)。在CDKN2A缺失的MDA-MB-157细胞中敲除TYMP时它们恢复了对PMX的敏感性并减少了细胞凋亡,表明TYMP和CDKN2A之间存在遗传相互作用(图3g)。作者为了在一个没有PMX的稳定的遗传背景研究TYMP和CDKN2A的相对贡献,建立了一个细胞系模型。在这些细胞系中,测试了TYMS敲除对细胞活力的影响。在CDKN2A敲除细胞中,靶向TYMS的gRNAs导致细胞活力下降。过表达TYMP也可以观察到对细胞活力的负影响,而过表达TYMP和CDKN2A缺陷的联合作用显著加剧了对细胞活力的负影响(图3h)。总的来说,这些结果表明CDKN2A缺失和TYMP对PMX敏感性的影响。作者根据CDKN2A状态和TYMP基因表达水平将DepMap数据分为4组,CDKN2A缺陷和TYMP高表达的结合很好地解释了TYMS的敏感性(图3i)。接着作者将DepMap肿瘤细胞系按组织来源进行分组,发现CDKN2A状态和TYMP表达在不同肿瘤类型中控制TYMS依赖性的作用是不同的(图3j)。作者认为CDKN2A缺失和TYMP过表达的细胞共同促进了TYMS的敏感性,并且这些依赖性可以是细胞类型特异性的。
5. 利用PARIS预测基因组中DDR基因的易感性
在文章的最后一部分作者为了证明PARIS在更大的队列中选择SL相互作用的能力,并揭示DDR和其他基因中的潜在易感性,作者将数据集的特征扩展到所有可用基因。结果发现两个队列预测得出的重要性得分是一致的,在这个更大的队列中ARID1B-ARID1A、SMARCA2-SMARCA4和STAG1-STAG2也被发现是高置信度预测(图4a)。此外,作者还识别了癌症中众所周知的易感性,如BRAF突变细胞中的MAPK1依赖性。与在DDR队列分析一致,一些预测的SL相互作用是同源基因(图4b)。除了这些同源对之外,PARIS还高度可信地预测了最近发现的SL相互作用,如抗凋亡基因MCL1和BCL2L1之间的相互作用(图4c)。接着为了了解ALDH2和BRIP1水平在人类肿瘤中是如何调控的,作者分析了从TCGA获得的癌症表达数据,并将它们与GTEx数据库的正常组织数据进行比较,结果发现ALDH2在几种肿瘤中下调。也观察到,在乳腺癌、脑癌和肺癌队列中,ALDH2和BRIP1之间存在很强的负相关(图4d)。这些表明在ALDH2低表达的肿瘤样本中BRIP1可能上调。因此当根据ALDH2表达水平对肿瘤样本进行划分并进行差异基因表达分析时,FA通路是这两组中上调较高的通路之一(图4e),而FA通路中的BRIP1,FANCD2和FANCI在不同肿瘤类型中均一致上调(图4f),且独立于肿瘤分期。这些结果表明ALDH2-BRIP1易感性对各种组织特异性癌症是重要的。为了进一步验证这一预测,作者选择了一组乳腺癌细胞系来测试ALDH2低表达细胞的易感性。结果乳腺癌细胞系显示ALDH2的启动子超甲基化,表明ALDH2的表达水平受表观遗传控制(图4g)。为了进一步验证作者通过RT-qPCR检测了代表不同乳腺肿瘤亚群的9种乳腺癌细胞系中BRIP1和ALDH2的表达。结果在这9个细胞系中,7个细胞系的ALDH2 mRNA水平低到无法检测,且BRIP1表达增加。而与基因表达分析一致,在SK-BR-3和MDA-MB-468中观察到高水平的ALDH2蛋白,而在MCF-7、HCC1954和HCC1937中几乎检测不到(图5a)。此外与SK-BR-3和MDA-MB-468相比,ALDH2蛋白水平低的细胞系BRIP1蛋白水平升高(图5a)。接下来,为了研究ALDH2表达不同情况下对BRIP1的预测依赖是否代表一种潜在的肿瘤易感性,作者将乳腺癌细胞分为两组:1)作为对照组,包括高水平表达ALDH2的SK-BR-3和MDA-MB-468;2)定义为依赖组包括MCF-7、HCC1954和HCC1937,它们的ALDH2水平较低。接下来,作者研究了模型细胞在转染两种靶向BRIP1的独立gRNA后形成菌落的能力,这两种gRNA均显示了BRIP1蛋白水平的一致下调。结果作者观察到三种依赖组的细胞在BRIP1敲除后的菌落数量显著减少,而对照组细胞则轻微或无影响(图5b, c)。此外,在对照细胞系SK-BR-3和MDA-MB-468中,敲除BRIP1和ALDH2基因导致的菌落数量减少与依赖细胞系中观察到的效果一致,而当只敲除一个靶点时,没有观察到差异(图5d)。这些进一步证实了BRIP1基因抑制的表型效应依赖于ALDH2水平。接下来作者为了无偏评估BRIP1和FA复合物的其他成分对ALDH2敲除细胞稳定性的影响,使用定制的主要靶向DDR相关基因的文库进行了CRISPR-Cas9筛选(图5e)。也测试了RPE-1 TP53-/-细胞对外源ACE的敏感性(图5f)。结果发现与癌症细胞系的结果一致,靶向BRIP1以及FA途径的其他几个成分与WT相比会显著损害ALDH2 敲除细胞的稳定性(图5e)。ACE治疗加重了这些效应,尤其是BRIP1(图5f)。接着作者探索了单个或联合敲除后RPE1TP53-/-细胞中的DSB应答,测量了组蛋白变体H2AX在Ser139位点磷酸化的核灶形成(γ-H2AX),这是一个公认的DNA损伤标记。结果发现检测到与单独的相比,结合BRIP1和ALDH2敲除的核灶计数增加(图5g, h)。与BRIP1-ALDH2敲除观察到的效果类似,FANCD2和ALDH2联合敲除导致γ-H2AX核灶的形成增加(图5g)。总而言之,在ALDH2低表达的细胞中BRIP1的缺失引发的依赖性可能是通过内源性ACE诱导的DNA损伤反应。
到这里,这篇文章的主要内容就介绍完了,可以了解到文章开发了机器学习方法PARIS能够无偏倚可扩展的预测癌症依赖关系。文章通过研究DDR相关基因的易感性,证明了这种方法的能力,并识别和验证了两个以前未被描述的SL相互作用,研究合成致死的小伙伴不要错过呀。