内部串联重复(internal tandem duplications,ITD)在癌症发病机理中起重要作用。尽管现在的高通量测序技术已经可以在全基因组范围检测各种类型的突变,包括SNVs、indels、SVs,但在ITD的检测上,灵敏度和精确度明显不足。这里介绍一款可用于检测全基因组体细胞ITD的工具——Genomon ITDetector。
一、下载安装
1)首先从github下载,并按照网页提示安装:https://github.com/ken0-1n/Genomon-ITDetector
2)确认是否安装好各依赖软件包:
blat、bedtools、CAP3、fasta36、SAMtools。
注意bedtools建议安装版本:Ver. 2.14.3。因为后续执行“创建注释数据库”命令:bash createAnnoDB.sh时,该脚本中包含旧版才有的-nms参数,而新版已不使用该参数......这样的坑只有趟过的人才懂得-_-||。其他软件使用网页中提及的版本或最新版均可。安装时使用“conda install+工具名”会方便很多,免去安装依赖包的麻烦。
另外还需下载一些必备文件:refGene.txt, knownGene.txt, ensGene.txt and simpleRepeat.txt from the UCSC site。点击github网页中文字跳转到下载页面,ctrl+F搜索文件名,点击下载并解压。
3)按照要求执行命令生成hg19.2bit:
/path/faToTwoBit hg19.fasta hg19.2bit
创建11.doc文件:
/path/blat -makeOoc=11.ooc -repMatch=2253 -tileSize=11 hg19.2bit temp.fa temp.psl
4)填写配置文件config.env,注意各软件路径只具体到执行文件所在的文件夹。
5)最后一步——改detectITD.sh,网页中未提及...所以又是一个坑-_-||:去掉第19行注释符“#”,在第20行前加上注释符“#”,这么做是因为shell中后续执行命令会调用安装目录下的文件,若不改,脚本会在当前运行目录查找文件,就该报错咯~
6)开始测试:
bash detectITD.sh testdata/testin.bam testout testsample
7)若有需要,可通过构建正常人样本的inhouse数据库以减少假阳性:
将正常人跑出来的inhouse_itd.tsv文件的绝对路径填入软件安装目录的inhouse/normal_inhouse_itd.list ;将inhouse_breakpoint.tsv路径添加入 inhouse/normal_inhouse_breakpoint.list。
二、结果说明
结果文件itd_list.tsv中包含断点位置、支持reads数、平均测序深度、组装contig的位置、contig序列、contig长度、ITD位置、ITD序列、ITD(OIN)长度、PDN长度、ITD-BPP、等级评判指标值、基因ID和简单重复序列的注释、inhouse注释、评判等级(A/B/C)。
PDN(presumed duplicated nucleotides)表示reads比对断点间的序列,作为候选的ITD序列。
OIN(observed inserted nucleotides)表示组装的contig与参考基因组比较,得到的插入序列,即检测到的ITD;
左右断点称为ITD-BPPs(ITD breakpoint pairs):
等级评判主要考虑以下因素:
OIN和PDN长度比;
OIN比对到PDN上,match的碱基数比例。
三、过程
1)识别ITD-BPPs,并把soft-clipped reads(比对中出现断点的reads)重比对到人参考基因组上,若有reads的部分序列比对到ITD-BPPs,判断为PDN。
2)将比对到ITD-BPP的reads组装成contig,并确认contig是否包含了PDN;将contig比对到ITD-BPP附近的参考序列上,以识别OIN;并对OIN和PDN进行比较分级。
3)过滤假阳性:根据构建的inhouse数据库过滤。
四、缺点
无法检测多次重复的ITD;只能用于somatic ITD检测,不适用于germline;重复区域的ITD检测困难。
五、参考文献:
Chiba K , Shiraishi Y , Nagata Y , et al. Genomon ITDetector: a tool for somatic internal tandem duplication detection from cancer genome sequencing data[J]. Bioinformatics, 2015, 31(1):116-118.
更多生信分析需求,请联系电话(同微信号):13120220117