一、 Why:为什么要研究高深度测序数据中的测序错误,应用价值
过去报道的二代测序错误(主要是碱基替换)在0.1%左右。这个错误率对于检测低频突变来说,已经很高了。比如,肿瘤体系突变,就是典型低频突变的检测,在通过FDA 授权验证的MSKCC-IMPACT 研究中,热点突变位点检频率为0.02(2%),非热点频率为5%,深度500–1000X。而目前市场上推广的各种肿瘤检测试剂盒(赛默飞世尔),检测cfDNA,检测下线据称已达0.1%。由此可见,二代测序宣称的0.1%(Q30)的测序错误率相对于低频突变检测来说,已经不算低了。研究清楚错误来源,才好对症下药,降低错误率。
二、Where:测序错误来自哪些环节?
NGS样本处理流程的每一个环节,包括:样本处理,DNA分离,DNA聚合酶错误,PCR过程,测序过程等等。例如,5甲基胞嘧啶的自发脱氨基作用导致C>T/G>A 置换错误。如图:
深度靶向测序通常是基于扩增子和杂交捕获测序,潜在的错误在扩增过程中被放大。
三、测序错误评估过程(How)
数据来源及样本处理:
研究目的:得到测序错误与低频体系突变的cutoff频率阈值。
Step1: 构建Benchmark数据集
对已知有19个somatic变异位点Cancer/Normal样本对,分别根据0.1%及0.02%的混样比例进行梯度Cancer/Normal混样,进行高深度测序,作为benchmark。 混样后,如果没有其他测序错误,对2个不同梯度测序数据,对比原始浓度为100%的Cancer/Normal数据,检测出来的变异频率MAF应该符合1000或5000倍的差距。混样后,不同混样浓度MAF比较见下图,图中红色标志为已知的18个Mutation,有且只有这18个点MAF比例基本符合前面推测,证明我们分析的target区域没有其它未知体系突变混杂。
下面特选了一个癌症样本体系突变SNV进行分析,这个SNV 位于chr1 q端,杂合缺失(LOH),有4个拷贝(4倍体),突变类型分别为:4v4, 2v4,1v4(突变占4份拷贝中的1分),因此对于0.02%,0.1%不同浓度梯度的稀释样本,该体系突变的频率应当为: 0.01%, 0.02%, 0.04%, 0.05%, 0.1%, and 0.2%(注意原本正常胚系突变拷贝数为2)
Step2: 识别低质量Reads
1)Raw Reads -> Trim 首尾5bp,去除低质量序列
2)去除MAPQ低的序列
3)评估剩余"高质量"(按常规流程看来,这已经算是经过过滤的高质量序列了)Reads的整体Reads质量和错误率。PS: 这里整体Reads质量为Reads中质量低于20(也就是错误率>%1)的碱基的数目。
结果见下图:
a为3种不同试验碱基质量分布图,蓝线为累计分布。横坐标为碱基质量值,纵坐标为碱基比例。
b为Reads上不同位置碱基质量分布图,横坐标为碱基位置,纵坐标为质量值为Q30+的碱基比例
c为Reads MPAQ累计分布图,黑色箭头为MAPQ filter的cutoff值(30和55)。横坐标为MAPQ,纵坐标为reads比例。
d展示了低质量Reads的比例。横坐标为Reads中低质量碱基数目,左纵坐标为Reads数目,右为对应的错误率。图h,黄线显示错误率并没有随着Reads质量的提高而降低,这可能是因为C>T/G>A测序错误,因为移除这类错误之后,结果基本呈现负相关,见紫色线。
4)由此开发了一个工具--CleanDeepSeq进行allele count,它会在进行等位计数(allele count)之前,进行低质量Reads去除
Step3: 与标准mutation caller对比
1)见图:
图a:红色表示A>T erro,灰色表示其它erro。从图a可以看出,作者的CleanDeepSeq很高效地降低了A>T erro(20倍),使目标(已知)变异BRAF-V600E轻易与背景噪音分离开来。
图b/C:2个不同浓度梯度,样本水平,CleanDeepSeq流程与常规流程比较,横坐标为log10(erro rate),左纵坐标为log10(Median erro rate),右为样本数。红点表示前文所说已知体系突变的MAF,3种颜色(红蓝黑)分别代表3钟突变类型(1v4,2v4,4v4),
从图中可以看出,不同的替代类型错误率不同。C>T/G>A错误率最高(可能是5甲基胞嘧啶脱氨基作用)。并且,CleanDeepSeq也无法有效将C>T/G>A变异与测序错误区分,而C>T/G>A也是癌症中的常见变异。
2)C>T/G>A测序错误signature分析
C>T/G>A测序错误依赖其上下序列组成。
上图,C>T/G>A测序错误根据上文序列的类型不同,分解出16种不同结果。*表示在该序列环境下,C>T/G>A测序错误比例上升。可以看出当,出现在GN,NG,GG环境中时,错误率上升。
Step4: 不同测序中心,测序平台及DNA聚合酶的比较
Step5:癌症相关替换及热点替换错误率
发现近30% COSMIC Somatic SNV处在高测序错误率环境(容易与同类型的测序错误混淆)。这意味着还有70%的Somatic SNV是低测序错误率环境,通过高深度测序,可以检出这样的低频突变(0.01~0.1%)。而热点突变,70+%是低测序错误率环境,因此通过高深度测序,也可以在0.001~0.1%水平上检出。
Step6:由样本处理及存储带来的错误替换
样本特异的DNA损伤也可以带来错误。
图a-d,每列代表一个样本(共47 leukemia samples),一行代表一个在所有样本中都测到的位点。一共分成4(4种可能碱基类型)类突变类型(panel),对于每一类,根据位点错误类型(3种)对样本进行cluster。可以发现在sample水平,哪些样本有明显的C>A及G>T突变。图e,表示样本特异错误与C>T/G>A和C>G/G>C这2类错误的相关关系,可以看出明显正相关,线性回归模型和R2值如图所示。
Step7: 为CleanDeepSeq打call
使用标准流程,错误率为~0.1%,用CleanDeepSeq后,10倍降低错误率。见图:
Step8:两轮富集PCR错误
WGS数据:1轮PCR
杂交捕获数据:2轮PCR(6~18cycles)
捕获数据的错误率比WGS高5.5~6.5倍
左图99th分位数,右图99.9th分位数
四、总结
本文主要讲了几种测序错误来源,发现测序错误有不同的替换类型并且对上下游环境有依赖,反应了DNA聚合酶的忠实性(在人为的测序过程中与在生物体内机制,比如cancer,错误偏好一样)。此外,还通过部分样本某一类测序错误的富集,揭示了这些样本在处理及存储上发生问题。作者开发的工具CleanDeepSeq在降低测序错误率的同时,在call Mutation时可以降低3~30倍的假阳性率,特别对单样本,没有对照的变异检测很有帮助。
更多生信分析套路,请加微信13621202201
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史