首先NT和NR库本身体格比较大,所以要想快速下载,必须用快速的办法,可以参照下文:
Ncbi的nt和nr数据库是生物信息分析中广泛使用的数据库,随着测序数据的增多,这两个数据库也越来越大,2017年4月5日发布的nt数据库已经达到了139Gb,nr数据库达到了67Gb,数据库庞大意味着更全的信息,但比对用时也越来越长,无论是同源比对还是基因注释,序列比对时间已经开始影响项目的进展。实际上大部分分析工作中并不需要比对完整的数据库,使用与物种相关的信息即可达到较好的效果。在这里,推荐一种将nt/nr数据库按物种分类关系分成多个子库的方法,这样仅比对数据库的有效部分,可以达到比对速度与精度的良好平衡。
拆分nt/nr数据库关键是ncbi的taxonomy数据库,里面提供了物种的分类关系以及ncbi每条序列与分类号的对应关系,下载地址是ftp://ftp.ncbi.nih.gov/pub/taxonomy。我们需要的是accession2taxid/prot.accession2taxid.gz文件以及taxdmp.zip压缩包中的nodes.dmp文件和division.dmp文件。
prot.accession2taxid文件提供了nt/nr中accession号与物种分类taxid的对应关系,文件中第一列是accession号,第三列是对应物种的taxid号。如下所示:
accession accession.version taxid gi
A00002 A00002.1 9913 2
A00003 A00003.1 9913 3
X17276 X17276.1 9646 4
X60065 X60065.1 9913 5
Nodes.dmp是\t和|符号分隔的文件,提供了taxid之间的物种分类进化树信息,第一列数据是taxid号,第二列数据是进化树上级节点的taxid号,第七列是对应界一级分类阶元的divisionid,也是我们拆分数据库的主要依据。如下所示:
2 | 131567 | superkingdom | | 0 | 0 | 11 | 0 | 0 | 0 | 0 | 0 | |
Division.dmp提供了divisionid和实际分类阶元的对应关系,第一列是divisionid,第二列是division名称,第三列是division的描述信息。如下所示:
0 | BCT | Bacteria | |
1 | INV | Invertebrates | |
2 | MAM | Mammals | |
3 | PHG | Phages | |
4 | PLN | Plants and Fungi | |
5 | PRI | Primates | |
6 | ROD | Rodents | |
7 | SYN | Synthetic and Chimeric | |
8 | UNA | Unassigned | No species nodes should inherit this division assignment |
9 | VRL | Viruses | |
10 | VRT | Vertebrates | |
11 | ENV | Environmental samples | Anonymous sequences cloned directly from the environment |
通过写一个脚本将acciessionid映射到taxid,再映射到divisionid,我们可以将nt/nr中的序列拆分到以上的12个大类中,分别代表:
Bacteria, Invertebrates, Mammals, Phages, Plants and Fungi, Primates, Rodents, Synthetic and Chimeric, Unassigned, Viruses, Vertebrates, Environmental samples。
实际拆分后,nt数据库每个大类下的序列容量如下所示:
nt_BCT32G
nt_ENV4.9G
nt_INV24G
nt_MAM11G
nt_notaxonomy1.3G
nt_PHG299M
nt_PLN25G
nt_PRI13G
nt_ROD7.4G
nt_SYN356M
nt_UNA71M
nt_VRL2.9G
nt_VRT18G
nr数据库每个大类下的序列容量如下所示:
nr_BCT50G
nr_ENV551M
nr_INV3.8G
nr_MAM1.3G
nr_notaxonomy388M
nr_PHG99M
nr_PLN6.5G
nr_PRI819M
nr_ROD551M
nr_SYN20M
nr_UNA36K
nr_VRL787M
nr_VRT2.7G
来源:百迈客