Genewise 是用来做蛋白质序列和 DNA 序列之间的比对,软件比对过程中会考虑剪切位点信息,所以能够定义出 intron/exon 结构,同时它和 blast 的最大区别是它能够把基因的多个 exon 的链接起来,从而得到基因整体的比对情况。
Genewise 只能一次进行一条蛋白序列和一条核酸序列的比对,同等运算量的情况下,运行时间较 blast,blat,sim4 等慢,由于进行的是蛋白质水平的比对,所以敏感性比blat,sim4等要高。
下载:
该软件包可以从 EBI 的网站上免费下载,目前最新版本的软件下载链接如下:
ftp://ftp.ebi.ac.uk/pub/software/unix/wise2/wise2.2.0.tar.gz
1.上传大型机
2.解压缩:
gzip –d wise2.2.0.tar.gz
tar –xvf wise2.2.0.tar
3.查看解压的文件
4 编译源程序
进入 src 目录(cd src)
在命令行键入 make all
编译完成后,可执行文件放在了/src/bin 目录下面。
默认是用 cc 编译源代码,如果编译报错的话,很可能是 CC 编译器有问题,可以试一下用
gcc 编译,命令如下:make CC=gcc all
Could not build objects!
使用
程序运行命令行:
genewise
genewise –genesf [other options]
输入
Fasta 格式的蛋白序列
AK058311”AK058311”,1615,””,””,92,1438,”001-013-H11”
MGQGTPGGMGKQGGAPGDRKPGGDGDKKDRKFEPPAAPSRVGRKQRKQKGPEAAARLPNV
VMKVEKAPLESYADIGGLDAQIQEIKEAVELPLTHPELYEDIGIRPPKGVILYGEPGTGK
KVTHADFKKAKEKVMFKKKEGVPEGLYM
Fasta 格式的核酸序列:
AK058311_Chr03_11499998_11507414
AATATCACCAGTGTCTTATAAGCAATTACACCAATTTTATTGGGGGTGTTCCTCAATAGT
TCGACGATCATGATGTCATGTCACCGAGGAATGAAAACGGAGCAGATAATTCTCTAATAG
TGAGACATACTCCAATTCTTTATAACTCTACCACCTTCAATATACCTTTTAGATTTTATA
AAGCCCAAGATACTTGAAAAGAACAGAAAAACAGAAG
在默认参数情况下,输出的结果包括三部分:
(1)在结果中,前半部分为参数列表,提示用户该 genewise 比对所用的参数。其中,
“Query protein”为用户提供的 query 蛋白质序列的名字,“TargetSequence”为用户提供
的 target DNA 序列名字;比对用的打分矩阵;剪切位点模型等参数;
(2)genewise 比对的 score 值。信息如下:
Score 909.67 bits over entire alignment
Scores as bits over a synchronous codingmodel
其中的“909.67”为该 genewise 比对的打分,分越高,说明比对的质量越高;
(3)genewise align 信息:
比对结果的显示 6 行一组,如上显示。其中第一行是用户输入的蛋白质序列;第二行显示
的是能够和 dna 序列精确比上的氨基酸;第三行是 dna 序列翻译出来的氨基酸序列;四到五行
分别表示的是对应的氨基酸 0,1,2 三个相位的碱基;
AK058311 422 VTHADFKKAKEKVMFKKKEGVPEGLYM
VTHADFKKAKEKVMFKKKEGVPEGLYM
VTHADFKKAKEKVMFKKKEGVPEGLYM
AK058311Chr03 5334TAGgacggtaagagagataaagggcggcta
-0>tcacataacaaatttaaaagtcagtat
gatctcggcaggcgcgggatagagttg
Genewise的常用功能:
(1)定义基因在基因组 DNA 上的 intron-exon 结构
用户使用的命令行:
genewise -both -genesf input-protien1.fainput-dna1.fa >output1.genewise.out
(2)当那拿一个物种的基因和另外一个物种的基因组 dna 进行比对时,就可以定义基因在另
外物种基因组上的同源性和基因结构,通过这些信息可以方便研究基因的进化
用户使用的命令行:
genewise -both -genesf -cdna input-protein2.fainput-dna2.fa >output2.genewise.out
结果:序列的同源性可以根据 identity 和 cutoff 两个参数获得,其中identity 是精确比上的氨基酸占参与比对的氨基酸长度的百分比,cutoff 是参与比对的氨基酸占蛋白质总长的百分比。
(3)检测假基因
用户使用的命令行:
genewise input-protein3.fa input-dna3.fa >output3.genewise.out
当比对的结果里面出现“!”时说明 dna 序列中出现了移码突变,当比对中出现 X 时说明出现了 premature stop codon。假基因的信息同样可以用DealGeneWise.pl 程序结果得到,格式如上表所示;f 代表是否存在 frameshift 的突变,如果存在,值为 1,否则为 0;s 代表是否存在不成熟的终止密码子,如果存在,值为 1,否则为 0。
举例:下面的事情就可利用用Genewise做。
检测嗅觉受体(olfactory receptor)基因在 human,chimpanzee,mouse 和 rat 之间
的同源性;
提示:由于定义基因水平的复制必须要基于能够检测到较完整的基因的 copy 信息,
genewise 比较适合这种工作,但是由于 genewise 是全局的比对,所以需要先对基因进行大体的定位,可以通过 blast 等局部比对的软件进行比对得到基因大体的位置信息,再通过 genewise确定是否是基因的 copy。
对 genewise 的比对结果进行一下过滤,把其中 score 值比较小的,或者比上的区域占输入
蛋白质序列比较少的过滤掉,根据不通的需求,百分比的定义会有所不同,过滤之后的可以定义为输入蛋白质的拷贝,从而可以得到基因的拷贝数。
祝大家在新的一年里,学业事业双丰收。