【转录组测序分析专题4】
VCF格式介绍
【转录组测序分析专题】将要讲解流程的内容如下:
往期精彩回顾
此次介绍VCF文件,如有错误,还请各位大侠批评指正!
首先,送上官网的详细说明文档:https://software.broadinstitute.org/gatk/documentation/article?id=11005
很多时候,文件介绍官网其实说得很详细,还有例子讲解,但是大家貌似都不热爱看官网说明啊。
1,简介
VCF文件主要是一种用于记录variants(SNP/InDel)的文件格式:
VCF三个字的全称:VCF stands for Variant Call Format
VCF is the primary (and only well-supported) format used by the GATK for variant calls。是GATK软件的主要输出结果文件格式
VCF files are plain text files。是普通文本文件。
2,结构
VCF文件包括包括文件头,以"#"开头的注释部分,和没有"#"开头的用于描述变异检测结果的主体部分。
例子:
物种,使用基因组版本,对变异检测的定性和定量参数,使用GATK生成vcf文件的命令,并且表头的信息展示是排序的
VCF格式版本
FILTER参数告诉你数据作了一些什么过滤
FORMAT参数,对变异检测结果的FORMAT列的具体解释
GATKCommandLine 使用GATK时运行的所有参数
INFO lines
Mutect软件版本
Contig lines and Reference 包含contig 名字,长度
其余信息,有实验组样本名,对照组样本名,过滤状态,软件名称
主要有9列+样本信息(可以是多个样本的变异检测结果),十列分别代表的含义:
1 | CHROM | 参考序列名称 |
2 | POS | Variant坐在的left-most位置,即1-base position |
3 | ID | variant的ID,同时对应着dbSNP数据库中的ID,若没有,使用默认的"." |
4 | REF | 参考序列的Allele |
5 | ALT | Variants的Allele |
6 | QUAL | Variants的的质量。Phred格式的数值,代表此位点是纯合的概率。值越大,概率越低,此位点是variants的可能性越大 |
7 | FILTER | 此位点是否要被过滤掉。PASS表示此位点为Variant |
8 | INFO | Variant的相关信息 |
9 | FORMAT | Variants的格式:比如GT:AD:DP:GQ:PL |
10 | SAMPLEs | 每个Sample的值,由BAM文件中的@RG下的SM标签所决定。这些值对应这第九列的各个格式。不同格式的值用冒号分开。每一个Sample对应这1列;多个Sample对应这多列,这种情况下VCF的列数就会多余10列 |
我们重点说明第八列和第九列信息
1,第八列,INFO列
信息很多,都是以“TAG=Value”并使用分号分隔的形式。其中很多的注释信息在VCF的头部注释中就给出了英文释义。
我们挑出其中常用的TAG进行说明:
AC | 全称Allele Count,表示基因型为与variant一致的Allele的数目 |
AN | 全称Allele Number,表示Allele的总数目 |
AF | 全称Allele Frequency,表示Allele的频率,AF=AC值/AN值 |
DP | Reads覆盖度,是一些reads被过滤后的覆盖度 |
FS | 全称FisherStrand,表示使用Fisher精确检验来检测strand,bias而得到的Fhred格式p值。该值越小越好,越大表示strand,bias越严重,即检测的variants位点上,reads比对到正负义链上的比例不均衡。一般进行filter的时候,推荐保留FS<10~20的位点。 |
Dels | Fraction of Reads Containg Spanning Deletions。进行SNP和INDEL calling的结果中,有此TAG并且为0表示为SNP位点,没有则为INDEL。 |
2,第九列,FORMAT列
是基因型信息的多个标签。,以“;”号分割,值对应与后面跟着的样本信息列。同样用“;”号分割。
GT | 全称genotype,两个数字用“/”分开,这两个数字表示双倍体的sample的基因型。0表示样本中参考基因组(ref)的等位allele,1表示样本中变异(variant)的等位;2表示有第二个变异的等位。因此,0/0表示样本中该位点为纯和的,和参考基因组一样;0/1表示样本中该位点为杂合的,有ref和variant两个基因型;1/1为纯和,和variant一致。 |
AD | 全称AlleleDepth,表示样本中每一种allele的reads覆盖度,在diploid中则是用“,”分割的两个值,前者对应ref基因型,后者对应variant基因型 |
DP | Approximate read depth,为样本中该位点的覆盖度 |
GQ | Genotype Quality,基因型的质量值。表示该位点该基因型存在的可能性,值越大,则Genotype的可能性越大,Phred值=-10*log(1-p),p为基因型存在的概率 |
PL | Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification,指定的三种基因型的质量值,三种基因型为0/0,0/1,1/1,这三种基因型的概率总和为1。该值越大,表明为该基因型的可能性越小。Phred值=-10*log(p),p为基因型存在的概率 |