DNA甲基化在乳腺癌的发展过程中起着作用。先前的研究表明,DNA甲基化修饰可以作为一种很有前景的乳腺癌生物标记物。然而,以前的研究普遍被低统计效力所限制。今年4月份Maria Panagopoulou等人在 Cancers(IF: 6.639) 上发表了一篇《Deciphering the Methylation Landscape in Breast Cancer: Diagnostic and Prognostic Biosignatures through Automated Machine Learning 》,利用创新的AutoML工具对可用的BrCa甲基组进行再研究,得到了三个高性能的诊断/预后能力的简单特征。
Deciphering the Methylation Landscape in Breast Cancer:
Diagnostic and Prognostic Biosignatures
through Automated Machine Learning
破译乳腺癌的甲基化景观:通过自动化机器学习诊断和预后生物信号
一、研究背景
DNA甲基化是哺乳动物细胞基因表达的关键调控因子。DNA甲基化机制的破坏会导致肿瘤相关基因的异常表达,这些基因参与转移、免疫逃逸和代谢。然而,确切的甲基化事件及其在癌变和肿瘤进展过程中的关键时间尚未完全描述。随着全基因组甲基化阵列及自动化ML工具的出现,利用ML方法分析全基因组甲基化BrCa数据集,转化医学和分子生物学科学领域的研究人员能够从对珍贵和稀缺的临床样本进行的费力和昂贵的阵列检查中提取最大的信息,导致个性化的临床决策和疾病管理。
在这篇文章中,研究人员的目标是通过生物信息学分析利用全基因组BrCa甲基化数据集,使用现成的工具来识别DMG,通过功能分析揭示病理生理学意义,最重要的是通过特征选择建立准确和简单的预测性特征,可用于个性化BrCa管理。
二、结果
1、BrCa与正常乳腺组织甲基化差异的研究
通过差异甲基化分析鉴定的差异甲基化基因(DMGs)进行进一步的功能分析,以确定BrCa病理生理学中的表观遗传调控途径和功能,故研究人员做了以下几个工作:
首先,用RnBeads分析520个BrCa(原发性和转移性)和185个正常乳腺组织的原始甲基组数据,并显示27786个DMGs(假发现率(FDR)<0.05)。两组间的阵列基因甲基化总体上密切相关(ρ=0.9681)。紧接着,采用RnBeads分析对两组间的DMGs自动排序,并选择250个排名靠前的基因进行进一步的功能分析。在这些DMGs中,只有10个是低甲基化的,其余240个DMGs在BrCa中相对于正常组织是高甲基化的。
其次,使用DAVID工具对250个DMG进行基因本体分析(图2B)。结果表明:
(1)分子功能分析显示,序列特异性DNA结合、转录因子活性和RNA聚合酶II核心启动子近端区域富集。
(2)生物过程富集分析发现,DMGs主要参与RNA polⅡ启动子的转录、胰腺内分泌发育、转录调控和DNA模板化。
(1)细胞成分分析显示,研究基因主要富集于细胞核。
(2)通过一致性HDB进行的KEGG和反应组分析主要揭示了信号转导和代谢的富集。
最后,用JADBio分析RnBeads产生的β值,建立诊断模型。步骤如下:
(1)划分数据集。原始数据集(520个原发性和转移性BrCa和185个正常组织)被自动随机分为训练数据集和验证数据集。
(2)构建模型。对28581个基因阵列特征的训练数据集进行分析,通过分类随机森林算法产生区分BrCa患者和健康个体的5个特征基因(AUC=0.994)。其中4个是lncRNA基因,分别是AC104435.5、AC002550.1、AC124283.3和AC078802.1,最后一个是假基因DND1P1。构造验证模型显示AUC为0.988,进一步验证了模型性能的稳定性和准确性。(图2C)
(3)外部验证。为了进一步验证模型的性能,将其应用于一个外部的、不相关的数据集。经外部验证(AUC为0.888),进一步验证了模型预测的区分健康和BrCa的性能。
2、原发性和转移性BrCa的甲基化差异
通过分析原发性BrCa和转移性BrCa的甲基体,以检测与转移性转化相关的变化。研究人员做了以下工作:
首先,应用RnBeads对132例原发癌和31例远处转移癌的原始资料进行分析,检测DMGs 24638例(FDR<0.05)。结果显示两组之间的甲基化水平高度相关(ρ=0.9804)。
其次,对250个最高级别的DMG进一步进行富集分析。与原发性BrCa相比,转移性BrCa高甲基化126例,低甲基化124例。DAVID的基因本体分析在生物学过程、分子功能和细胞成分方面没有显示出任何统计上的显著相关性。类似地,通过一致同意的HDB分析KEGG和反应体通路并没有导致通路。
最后,用JADBio分析每个基因的β值,构建一个鉴别转移性BrCa疾病的特异性模型。步骤如下:
(1)划分数据集。原始数据集被自动随机分为93个原发组织和21个转移组织的训练数据集和39个原发组织和10个转移组织的验证数据集。
(2)构建模型。对28730个特征训练数据集进行AutoML分析,通过支持向量机算法生成一个包含三个特征基因,包括两个lncRNA基因(AL139011.1和AD000671.3)和蛋白质编码基因USP16。在训练数据集中,该特征在区分原发性疾病和转移性疾病方面的AUC为0.986,使用验证数据集构建模型(AUC=0.992),进一步验证了该模型预测性能的准确估计。
3、Ⅰ期BrCa与正常乳腺组织甲基化差异的研究
为了检测BrCa癌变过程中的早期甲基化事件,对136例Ⅰ期BrCa和111例正常乳腺组织的甲基化原始数据进行了差异甲基化分析。共检测到26046个DMGs(FDR<0.05)(图4A)。
接下来,选择250个排名靠前的基因(13个低甲基化基因和237个高甲基化基因在I期癌症中与正常人的关系)进行进一步的功能分析。结果如下:
(1)生物过程分析表明,RNA-polⅡ启动子在转录、DNA模板合成、转录调控和正、负调控等方面具有丰富的功能。
(2)分子功能也得到了丰富:序列特异性DNA结合、转录因子活性和DNA结合(图4B)。
(3)细胞成分分析显示只有细胞核富集。
(4)KEGG和Reactome分析表明,DMGs主要通过GPCR富集于信号转导、代谢和信号传导。
然后,将β值上传到JADBio以构建早期诊断模型。步骤如下:
(1)划分数据集。将原始数据集随机分为94个Ⅰ期BrCa和79个正常组织的训练数据集和42个Ⅰ期BrCa和32个正常组织的验证数据集。
(2)构建模型。在28702特征训练数据集中,AutoML通过支持向量机算法生成了6个等效特征基因(AUC=0.973)(图4C)。共同特征包括一个蛋白质编码基因(AIM2)、两个lncRNA基因(AL513008.1和AC004884.2)和一个长基因间非蛋白质编码RNA基因(LINC01563)。其中非共同特征为5个蛋白编码基因(DNM2、SSH1、PDGFRB、TIMP3和AP2M1)和1个lincRNA基因(LINC00623)。 经验证,该性能在AUC范围内达到0.972–0.984(图4C),验证了其估计的稳定性和准确性。
4、早期和晚期BrCa的甲基化差异
接下来,为了检测与BrCa进展为晚期疾病相关的重要甲基化事件,研究人员对521例早期和221例晚期BrCa患者的原始甲基组数据进行分析,结果显示:
(1)确定11176个DMG(FDR<0.05),两组之间的甲基化总体上密切相关(ρ=0.999)。
(2)根据250个排名靠前的基因,119个低甲基化,其余131个DMG在晚期疾病中高甲基化与早期疾病有关。
(3)DAVID的功能分析并没有显示出与生物学过程、分子功能和细胞成分分析相关的统计显著性。
(4)KEGG和Reactome通路分析也没有导致任何通路。
研究人员为了传递预测信号,进行如下步骤:
(1)划分数据集。将原始数据集随机分为366个早期和152个高级BrCa样本的训练数据集和155个早期和69个高级BrCa样本的验证数据集。
(2)构建模型。通过支持向量机算法,对28637特征训练数据集进行AutoML分析,得到了五个特征基因。特征包括四个蛋白质编码基因,即SMARCAD1,RWDD4,RPF2和WDR11以及一个lncRNA基因SNHG25。该特征在区分早期和晚期疾病方面的表现较差,AUC为0.559。
5、原发性BrCa患者生存分析
最后,为了建立一个基于甲基化的预后特征,研究人员使用894名患者的原始甲基组数据进行了AutoML事件时间(生存)分析,626名和268名原发性BrCa患者被随机分配到训练和验证数据集中。
通过ridge-Cox回归算法,对28635个特征训练数据集进行AutoML分析,得出五个特征的四个等效预测特征。一致性指数为0.592,表明预后较差。四个共同的基因是两个lncRNAs(AP005436.3和DDN-AS1),一个lincRNA(XX-C2158C12.2)和一个蛋白质编码基因(IL17RE)。非共同基因是一个lncRNA(AL355916.2)、一个lincRNA(LINC00824)和两个蛋白质编码基因(NET1和BRINP2)。再次,将特征的临界值增加到25导致轻微增加但仍较差的预后能力,AUC为0.606。
6、已鉴定蛋白质与BrC的生物学联系
为了进一步阐明BrCa病理生理学特征中所包含的所选蛋白质基因的功能作用,研究人员使用另一种用于蛋白质相互作用预测的生物信息学工具UniReD交叉检查。UniReD是一个文本挖掘工具,可以预测蛋白质的功能关联。两种蛋白质,RWDD4和BRINP2,被排除在分析之外,因为UniReD不能提供任何关于它们的信息。所有其他包含在特征码中的蛋白质特征被发现与乳腺癌途径有关(根据KEGG途径鉴定)。
此外,使用已知与乳腺癌生物学相关的10个基因的列表——BRCA1、BRCA2、RASSF1、ESR1、TP53、PIK3CA、BRMS1、CDH1、CST6、PTEN。
值得注意的是,所有的蛋白质都与这些BrCa基因有一定的关联,并相应地进行了排序。TIMP3、PDGFRB和DNM2都包含在早期疾病的生物信号中,显示出最密切的关联,TIMP3与所有被检测的BrCa基因相关。
三、讨论
这篇范文利用全基因组BrCa甲基化数据集,通过差异甲基化分析鉴定的差异甲基化基因(DMGs)并进行进一步的功能分析,其主要贡献是通过在高维甲基组数据集中应用创新的经验证的AutoML技术,通过支持向量机和随机森林分类算法为BrCa诊断和预后提供三个准确和低特征数的特征,是一篇典型的生信TCGA数据库挖掘套路。
与此同时,Cancers杂志关注有关肿瘤方向的基础研究及临床转化研究。作为具有较好IF上升趋势的期刊,cancers杂志可以作为冲刺高分段的敲门砖。心动的肿瘤学研究领域的研究人员们快行动起来了!