今年6月份,中国医学科学院北京协和医学院的李单青教授等人在《Nature biomedical engineering》(IF= 18.952)发表了文章。他们提出了一种通过机器学习辅助的深度甲基化测序技术——增强型线性分裂扩增测序(ELSA-seq),实现了对于循环肿瘤DNA (ctDNA) 的超灵敏检测(如图1)。
在基于甲基化模式的机器学习分类器的辅助下,深度甲基化测序能够在稀释因子低至万分之一的情况下检测肿瘤来源信号,克服了目前的DNA甲基化分析问题。今天小编就带大家看看这篇文章~
研究背景:
(1)细胞游离DNA (cfDNA)是指血液中降解的DNA片段,大部分来源于正常白细胞(WBCs)。在癌症患者中,一部分cfDNA是肿瘤衍生的循环肿瘤DNA (ctDNA),它提供了实时的癌症基因组快照。ctDNA突变的表征在癌症诊断、预后和监测方面取得了显著的成功。
(2)目前,基于下一代测序(NGS)的DNA甲基化分析技术可分为两类:基于亚硫酸氢盐转化的方法和基于富集的方法。其中,亚硫酸氢盐测序被认为是DNA甲基化分析的金标准,因为它提供了单碱基分辨率的定量。但是,通过亚硫酸氢盐处理会对DNA造成巨大损害,这就限制了该方法在血液中的应用。而且,转换后的DNA序列多样性普遍较差,这就导致了靶标富集偏差、高测序错误等问题,这使得基于富集的方法分析也变得十分具有挑战。
教授介绍:
李单青,男,协和胸外科主任,主任医师,教授,博士研究生导师。就读于上海第一医科大学,1989年就职于北京协和医院外科,2007年开始任北京协和医院胸外科主任,是北京协和医院历史上最年轻的科主任,擅长普胸外科各种常规及非常规手术,如肺部、胸膜、纵隔、食管贲门各种良恶性疾病。
研究数据:
作者从两家医院共招募了308名手术可切除的肺癌患者和261名年龄和性别匹配的非癌症对照者。原始测序数据(fastq files)可以从NCBI Sequence Read Archive (SRA)存储库中获得,访问号为PRJNA534206。在合理的请求下,可以联系作者获取数据用于相关研究。
研究结果:
一、ELSA-seq的测序概况:
(1)DNA分子需要特定的5’和3’端adapters,以被高通量测序仪“读取”。如果标记分子断裂了,就会导致流细胞表面的“seeding”失败。为了最大限度地减少亚硫酸氢盐转化导致的adapters损失,作者首先安排了退化步骤,然后是与单链DNA匹配的步骤,以最大限度地恢复原始模板。
(2)adapter连接是另一个常见的限制因素,因此作者设计了“tail-and-tag”策略来提高效率。简而言之,亚硫酸氢盐处理后的DNA被末端的脱氧核苷酸转移酶(TdT)酶变性、去磷酸化,并以富集胞嘧啶的核苷酸尾延伸。然后在大肠杆菌连接酶(tail - tag .1)存在下,将夹板适配器退火到尾部,以促进高效的连接步骤。
(3)接下来,由尿嘧啶耐受性DNA聚合酶从一个共同的锚定位点产生复制链,为单标签中间体提供高分子冗余,以减少下一轮adapter连接(Tail-Tag.2)中模板的丢失。
二、Panel设计和捕获靶标的性能:
(1)要想对整个人类甲基化组进行深度测序,需要非常高的成本,因此作者基于Gene Expression Omnibus (GEO)和the cancer Genome Atlas (TCGA)数据库,对白细胞(n = 656)、肿瘤组织(n = 4539)和正常组织(n = 521)的2765个探针区进行甲基化水平研究(如图4f),重点关注于与常见癌症相关的表观遗传变化上。共筛选到80,672个CpG位点,这些CpG位点横跨约1.05Mb的基因组区域。
(2)作者利用人淋巴细胞DNA (NA12878)和血浆样本来评估靶向测序的性能。该测序达到了合理均匀的扩增DNA片段捕获,60-80%的reads与诱饵区域唯一对齐(目标比),大于90%的诱饵区域被超过200 reads覆盖(均匀性),其中cfDNA仅为2ng(如图4g)。
(3)测序cfDNA碎片具有一个长度约160bp的单核小体峰,这与常规方法(TruSeq)的结果是非常匹配的。此外,与单核小体和双核小体相关的片段的扩增或捕获偏向性可以忽略不计(如图4h)。
(4)为了评估共同捕获偏性,作者计算了每个CpG位点甲基化胞嘧啶残基的百分比(单个甲基化等位基因频率,iAF),并发现正负链上存在高度相关(皮尔逊相关,ρ=0.90) (如图4i)。
三、单分子模式的信号识别:
(1)传统的DNA甲基化分析主要基于iAF,它对采样方差和技术噪声敏感。为此,作者设计了一种称为block index的指标,将显示相似甲基化状态的CpG位点分离成不同的block (如图5a)。共确定了8,312个block,block大小的中位数约为143bp,平均每个block约有13个CpG位点。
(2)作者将每个block的平均甲基化水平定义为平均甲基化等位基因频率(mAF),并将其与iAF在检测癌症相关变化方面的表现进行比较。通过对肺癌(LC)中经常甲基化的SHOX2基因的检测,发现mAF的接受者操作特征曲线(AUC)下的面积明显高于iAF,这表明“block”比“site”更具有鉴别能力(如图5b)。
(3)ELSA-seq的另一个优点是它大大提高了从技术噪声中分离生物信号的能力。对每个DNA片段的分析显示出癌症细胞和健康细胞的不同模式,而化学或测序错误通常是分散的。为了突出对比,作者开发了一种叫做甲基化block评分(MBS)的测量方法。其定义为连续甲基化模式的加权发生率与每个reads总CpG位点的比值(如图5c)。
(4)为了评估MBS的性能,作者将体外甲基转移酶处理的DNA与lambda DNA以不同的比例混合。(如图5d)即使是spike-in(0.001)很小的样本也可以被MBS明显地与负控制区分开来,而在使用mAF时观察到大量的信号重叠,这说明了模式识别在提高信噪比方面的优势。
四、评估ELSA-seq对肿瘤源信号的检测:
(1)作者通过肿瘤细胞spike-in实验来评估ELSA-seq的定量准确性。通过对WBC DNA正常的结直肠癌(CRC)患者的DNA稀释系列,发现在稀释至1/ 2000 (r2=0.99)时,观察到的肿瘤比例与预期的肿瘤比例之间存在近乎完美的相关性(如图6b)。
(2)通过对正常白细胞的重复测序,对该方法的假发现率(FDR)进行了实证评估。(如图6c)FDR随着输入DNA或测序深度的增加而稳步下降,这可能是因为甲基化计数低的标记产生了大部分的假calls,这些标记从泊松噪声的降低中获益更多。
(3)作者从3个不同的水平来评估ELSA-seq的检测极限(LOD):(1)数值模拟:通过对二项分布的甲基化计数建模,发现增加标记物的数量或测序深度可以提高成功率(即灵敏度) 。值得注意的是,随着ctDNA的比例从1/10,000下降到1/100,000,标记物的大小显著增加,这表明肿瘤负荷是检测灵敏度的一个基本限制因素。(2)生物信息学模拟:通过计算将癌细胞的测序reads与健康cfDNA的测序reads以不同的比例混合,进一步验证了这一理论。(如图6d所示)在肺癌和结直肠癌样本的模拟数据集中,ELSA-seq的in silica敏感性达到1/100,000 (P<0.0001,双尾t检验)。(3)实验评估:肺癌和结直肠癌细胞的DNA加入正常WBC DNA稀释系列。对两种细胞系,MBS量化的癌症信号(即检出率)均以低至1/10,000的稀释度检测(CRC P=0.001, LC P=0.025,双尾t检验)(如图6e)。
(4)最后,作者将ELSA-seq的LOD与ddPCR和超深突变测序(HS-UMI)进行了比较。在相同条件下,ELSA-seq显示出至少10倍于突变分析的能力(如图6f)。
五、设计概念验证研究(proof-of-concept)和肺癌特异性标记物的选择:
(1)为了探索ELSA-seq的潜在临床应用,作者进行了试点肺癌病例对照研究,包括四个顺序步骤:标志物选择、模型培训与验证、单盲试验和跨技术比较(如图7a)。
(2)在应用于血液样本之前,通过比较恶性、良性和正常肺组织,作者为肺癌定制了ELSA-seq panel(如图7b)。用于检测ctDNA的标记物大小被设定为2000,确保了对于0.001–0.01%的肿瘤负荷能有95%的效能。总共有2473个block被选择,作者把它们称为specifiers。对于一部分specifiers的分类实现了92%的灵敏度和100%的特异性,AUC值为0.97,这表明了在同一组织类型中富集肿瘤特异性标记物是一个有效的策略(如图7c)
六、血浆样本的早期肺癌检测:
(1)为了合理地评估效能,作者分别从两家医院招募了培训/验证和单盲试验队列(如图7a)。共纳入308例手术可切除LC患者和261例年龄和性别匹配的对照,这足以评估诊断准确性与期望的统计错误。
(2)与组织样本相比,血液中的甲基化信号不太明显,尽管其强度随着疾病分期而增加 (如图8a)。作者构建了基于软边缘支持向量机的分类器,以适应低肿瘤负荷场景中期望信号的高随机性。训练/验证和单盲测试集之间的分类精度(AUC =0.93 vs 0.90)高度一致,这证实了低频信号的有效建模和过拟合风险的适当控制(如图8b,c)。
(3)多变量分析显示肿瘤大小和组织学亚型与ctDNA检测显著相关,这与之前的研究结果一致,即肿瘤行为主导着循环系统中ctDNA的丰度(如图8d,f)
七、ELSA-seq、HS-UMI和ddPCR的平行比较
(1)作者使用来自66例肺癌患者 (P1-P66)和49例正常对照 (N1-N49)的相同血浆样本,比较了ELSA-seq、HS-UMI和ddPCR方法。
(2)在第1组中,作者仅使用血液样本进行了双比较(P1-P34, N1 - N28)。34例肺癌患者中HS-UMI血常规阳性13例,ELSA-seq血常规阳性24例。所有28名正常对照均经两种方法检测为阴性,产生了100%的特异性 (95% CI, 88.0-100%, 如图9a)。报道的突变经常在癌症病例中发现,因此更有可能与肿瘤相关,而不是与克隆造血有关(如图9b)。
(3)在第2组中,作者对使用ELSA-seq和HS-UMI检测的血液样本以及匹配的肿瘤组织和/或突变的白细胞进行了“三联比较”(P35-P66, N29-N49, 如图9a)。在32例肺癌患者中,HS-UMI血液检测阳性15例,ELSA-seq血液检测阳性24例(如图9c,d)。所有21例正常对照均检测阴性,产生的特异性为100% (95% CI, 84.5-100%)。
(4)总之,ELSA-seq识别的癌症患者几乎是HS-UMI的两倍(48 / 66 vs 28 / 66),同时保持同样的超低假阳性率(0 / 49)。主成分分析显示病例和对照明显分离,这表明该分类器主要是由肿瘤特异性甲基化变化驱动的(如图7e)。此外,综合两种测试的结果,总检出率最高(54 / 66)(如图7f)。
文章小结:
作者开发了一种高分辨率的表观遗传分析工具——ELSA-seq,用来改善当前对于ctDNA的检测。该技术能够良好地保存分子多样性、有效地抑制噪声并且具有鲁棒的高维建模特征。ELSA-seq分析不需要先前的知识(如活检组织),因此为不需要手术切除样本的患者提供了一种解决方案。虽然作者仅证明了该方法在肺癌上有效,但它还是可以定制其他类型的癌症或体液。该技术可以扩展到很多方面,如肿瘤异质性或应用于其他临床场景,如治疗疗效的评估。