Hello 大家好,你们的浅浅上线了~ 今天给大家分享一篇体细胞突变人工审核相关的文献,Standard operating procedure for somatic variant refinement of sequencing data with paired tumor and normal samples。
众所周知,现在测序已经形成了比较成熟的流程。从实验到上机,从比对到call突变,每一步都会对我们的突变结果有着重要的影响。自动化流程可以过滤掉一些由于测序、错配等错误造成的假突变,自动化流程过滤后还要进行人工审核,以提高突变结果的准确性。准确的突变结果对于患者之后的治疗方案的确定至关重要。但是关于人工审核目前还没有比较成熟的流程,本文着重...(我编不下去了,干货在下面)
————————— 图多预警 —————————
ü 工具:IGV (不知道的戳这里→IGV软件使用指南)
ü 材料:tumor和normal的bam文件
IGV界面展示
文章中将突变划归为4种Call和19种Tag,四种Call比较好理解,如下:
19种Tag主要是对一些特定的突变模式的描述,这些突变模式或多或少会影响到我们对于一个位点的可信性的判断,19种Tag如下(图片过长,容易引起不适),下文中浅浅主要会对这些Tag的突变模式进行解释说明。
1. 评估突变支持的数量
【D】Directional
支持该突变的reads都是同一个方向的
查看方法:
right click on data track → Color alignments by → read strand
right click on data track → Sort alignments by → base
当然,也可以直接悬浮在Coverage Track查看某位点的链偏好性,比如:
【NCN】No Count Normal
【LCN】Low Count Normal
对照样本中该位点无reads覆盖或低覆盖
辅助判断方法:
GRCH37: “File” > “Load from Server…” > “Annotations” > “Variations and Repeats” > “dbSNP 1.4.7”
GRCH38: “File” > “Load from Server…” > “Annotations” > “All Snps 1.4.2”
查看该位点不同等位出现的频率,若出现频率较高则有可能是germline突变,若较低则可能是somatic突变
【LCT】Low Count Tumor
肿瘤样本中该位点低覆盖
【MV】Multiple Variants
辅助查看方法:
“View” > “Preferences” > “Alignments” > “Coverage allele-fraction threshold” > insert threshold
占比很小的那种等位的突变很可能是假的,可以通过上述方法保留达到预设丰度阈值的突变。
【LVF】Low Variant Frequency
过低的突变丰度往往是不可信的,不同实验室会设置不同的阈值过滤掉低丰度的突变。本文的实验室阈值为至少5%的突变丰度(至少20x覆盖)。
【MV】中的方法可以设置丰度阈值。
2. 评估突变支持的质量
【MM】Multiple Mismatches
如果错配碱基的质量较高,那么这种情况有可能是由于错误比对造成的;如果错配碱基质量较低,那么可能是由于测序的问题造成的。这两种情况都对降低该突变的可信度。
辅助判断方法:
以上方法可以将错配的碱基透明度按照碱基质量改变,碱基质量越低其颜色越浅。
【HDR】High Discrepancy Regions
支持该突变的大部分reads在100-200bp区域内存在3个及以上的突变,这种情况可能是真实存在的,但也有可能是由于错误地比对到同源区域造成的。
辅助判断方法:
right click on data track → Blat read sequence
可以查看该条reads可以比对到哪些位置
【LM】Low Mapping quality
reads颜色呈现透明或半透明说明该条reads的质量差,该条reads上突变的可信度低。
辅助查看方法:
“View” > “Preferences” > “Alignments” > “Mapping quality threshold” > insert threshold
通过设置mapping质量阈值过滤掉质量差的reads。
【TN】Tumor in Normal
造成这种情况的原因可能是样本来源及类型,比如血液肿瘤或者转移性高的肿瘤可能会存在这种现象。不过也有可能是污染造成的,可以检查一下同批其他样本有无类似情况发生。
3. 其他情况
【SI/SIO】Short Inserts
当插入片段比较短时,双末端测序测到的两个末端会存在重合。很多call突变的软件会把它当作两条reads来看,但实际上是一条reads。这样有可能造成该位点突变支持reads数偏高,或者风度偏高。这种情况在FFPE样本或者cell-free DNA中很常见。
辅助查看方法:
right click each data track > “View as pairs”
IGV在view as pairs模式下reads中间有一条灰线的是测序的重叠区域。
【AI】Adjacent Indels
这种情况一般是一个germline位点或somatic插入缺失旁有一个错配。如图所示的真实情况可能不是一个A插入和一个替换,而是AA碱基的插入。
(其实这种情况我没太看懂哎~要不谁给我讲讲?)
【SSE】Same Start/Ends
支持该突变的reads几乎完全一样,这样的reads有可能是由同一个分子扩增得到的。避免这种情况的发生应该在分析时进行reads去重复操作。
【E】Ends of reads
突变碱基位于reads末端的后30bp,测序时测序错误率会随着测序序列长度的增加而升高,所以末端的测序错误率较高,突变可信度低。
辅助判断方式:
Right click on data track > “Color alignments by” > “read strand”
【MN】Mononucleotide repeats
以下三种情况有点类似,分别是一个碱基重复、两个碱基重复和三个碱基重复。
辅助判断方式:
可以根据重复序列的长度、突变丰度、对照样本的检出情况和同批其他样本在该点的突变丰度综合判断。
【DN】Dinucleotide repeats
【TR】Tandem Repeats
【AO】Ambiguous Other
其他难以描述的情况
以上是全部的19种Tag,文章后面还做了一些其他工作以验证其分类方法有助于突变人工审核等等。
该团队还开发了一款软件 Integrative Genomics Viewer Navigator (IGVNav) 配合IGV的使用。界面如下,有兴趣的童鞋可以试一试。
能坚持看到现在,你一定是个很优秀的人!反正浅浅觉得自己能写完特~别~棒~
欢迎关注生信人