2018年5月7日,Nature genetics 在线发表了亚洲棉的基因组文章“Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits”其中利用了HiC技术用于亚洲棉基因组的提升。
2018年4月30日,Nature genetics 在线发表了Rose 基因组文章“The Rosa genome provides new insights into the domestication of modern roses”,在文章Fig. 1中展示了Rose染色体水平的拼接与HiC互作图谱的关联性,通过与HiC互作图谱的强关联性说明拼接的可靠性。 由此可见,HiC技术用于基因组拼接和评价应用火热。
本文将通过还原Rose基因组HiC互作数据来介绍HiC数据标准化与全基因组HiC互作图谱构建的流程。
图1 Rose基因组染色体水平拼接与遗传图谱以及HiC全基因组互作图谱关联性(Raymond et al. 2018)
一、流程确认及相关软件介绍
1、流程确认
根据Rose基因组文章在线版本Methods部分的介绍,全基因组HiC互作图谱是通过HiC-Pro来进行HiC数据的标准化并进行互作矩阵的构建,然后通过HiCPlotter进行数据可视化,获得Fig.1 的可视化结果。
2、HiC-Pro 安装使用极简介绍
HiC-Pro 下载地址:https://github.com/nservant/HiC-Pro 软件依赖:bowtie2、g++、sort、samtools(>1.1)、Python2及4个Python模块(pysam >=0.8.3, bx-python>=0.5.0, numpy>=1.8.2, scipy>=0.15.1)、R及两个R包(RColorBrewer,ggplot2 >=2.2.1 )。 解压安装:unzip HiC-Pro-master.zip && make configure && make install 使用:/HiC-Pro_PATH/bin/HiC-Pro -i HiC数据输入文件夹 -o HiC结果文件夹 -c 配置文件
3、HiCPlotter 安装使用极简介绍
HiCPlotter 下载地址:https://github.com/kcakdemir/HiCPlotter 软件依赖:Python >=2.7 以及三个Python模块(Numpy>=1.9.0, Scipy>=0.14.0, Matplotlib>=1.3.1)。 解压安装:unzip HiCPlotter-master.zip 使用:python /HiCPlotter_PATH/HiCPlotter.py -f HiC互作矩阵 -tri 1 -bed HiC互作区间 -wg 是否进行全基因组HiC绘图(1或0) -r 1000000 (绘图分辨率,默认100000) -chr 画图染色体范围 -o 输出文件前缀 -n 输出染色体范围 (由于HiCPlotter的用法非常多,这里只列出了由HiC-Pro输出的结果可以可视化的命令 )
二、数据下载处理及HiC-Pro分析
1、基因组序列和HiC数据下载及处理
下载: Rose基因组下载地址:https://www.ncbi.nlm.nih.gov/nuccore?term=CM009582:CM009590[PACC] HiC原始数据下载地址: http://sra-download.ncbi.nlm.nih.gov/srapub/SRR6189546 http://sra-download.ncbi.nlm.nih.gov/srapub/SRR6189547
HiC数据解压 nohup fastq-dump --split-3 SRR6189546 & nohup fastq-dump --split-3 SRR6189547 &
基因组序列检查(由于NCBI下载的基因组序列的序列名字太长且有空格,因此改名为chr1等)。
more 2018NG_rose_chr.fasta |grep ">"
>CM009582.1 Rosa chinensis cultivar Old Blush chromosome 1, whole genome shotgun sequence
>CM009583.1 Rosa chinensis cultivar Old Blush chromosome 2, whole genome shotgun sequence
>CM009584.1 Rosa chinensis cultivar Old Blush chromosome 3, whole genome shotgun sequence
>CM009585.1 Rosa chinensis cultivar Old Blush chromosome 4, whole genome shotgun sequence
>CM009586.1 Rosa chinensis cultivar Old Blush chromosome 5, whole genome shotgun sequence
>CM009587.1 Rosa chinensis cultivar Old Blush chromosome 6, whole genome shotgun sequence
>CM009588.1 Rosa chinensis cultivar Old Blush chromosome 7, whole genome shotgun sequence
2、HiC-Pro 分析
建立bowtie2 索引(HiC-Pro调用Bowtie2来进行HiC数据的比对):
bowtie2-build Rose_chr.fasta Rose_chr
建立HiC酶切位点文件(文章提到HiC采用的酶是DPNII):
/HiC-Pro_PATH/bin/utils/digest_genome.py -r dpnii -o Rose_chr_dnpii.bed Rose_chr.fasta
配置文件修改:
从HiC-Pro软件路径下拷贝标准配置文件到分析路径下,然后根据输入文件进行配置文件修改。下面是必须设置的一些参数。 BOWTIE2_IDX_PATH = /PATH_to_analysis# bowtie2建立的索引所在的路径,记住绝对路径 REFERENCE_GENOME = Rose_chr # bowtie2建立的索引 GENOME_SIZE = Rose_chr.fasta.size # 参考基因组中每条序列的大小,格式为chr01 10000000 GENOME_FRAGMENT =/PATH_to_analysis/Rose_chr_dnpii.bed # HiC消化片段位点文件 BIN_SIZE =1000000 # 分辨率窗口大小,可以依据分析需求而定,5000、10000、50000、100000、1000000都是可以,这个值越小计算量越大,这里设置一个中位置为100K N_CPU=20 # 运行CPU数量,看服务器情况而定
HiC-Pro运行命令:
/HiC-Pro_PATH/bin/HiC-Pro -i HiC_data -o HiC_data_out -c config-hicpro.txt
结果查看(HiC-Pro一步运行完用于HiCPlotter可视化画图的结果):
HiC-Pro产生的结果中有两个是下一步HiCPlotter所需的输入文件分别是 HiC互作区间文件和HiC互作矩阵文件。
HiC互作区间文件: /PATH_to_analysis/HiC_data_out/hic_results/matrix/Lib/raw/1000000/Lib_1000000_abs.bed 文件具体内容如下:(前三列分别是染色体及起始位置,第四列是这个区间的编号,在矩阵文件中应用)。
chr1 0 1000000 1
chr1 1000000 2000000 2
chr1 2000000 3000000 3
chr1 3000000 4000000 4
chr1 4000000 5000000 5
chr1 5000000 6000000 6
chr1 6000000 7000000 7
chr1 7000000 8000000 8
chr1 8000000 9000000 9
chr1 9000000 10000000 10
chr1 10000000 11000000 11
HiC互作矩阵文件: /PATH_to_analysis/HiC_data_out/hic_results/matrix/Lib/iced/1000000/L2_1000000_iced.matrix
文件具体内容如下:(每个数字代表的每个100Kb的区间,和bed文件对应)。
1 1 678.658080
1 2 324.615405
1 3 156.816128
1 4 135.730975
1 5 93.67516
1 6 104.083832
1 7 71.933971
1 8 51.807506
1 9 54.103978
1 10 42.184552
1 11 40.610061
1 12 23.162058
1 13 20.459862
1 14 8.426264
三、HiCPlotter 分析及最终可视化结果
全基因组Hi-C互作图谱运行命令:
python /HiCPlotter_PATH/HiCPlotter.py -f Lib1_1000000_iced.matrix -tri 1 -bed Lib1_1000000_abs.bed -wg 1 –r 1000000 -chr chr7 -n WholeGenome -o WholeGenome
图2 Rose Hi-C全基因组互作图谱
细心的同学会发现,我这个热图跟Rose文章中的图1相差很大啊,没错,我这个图是全基因组七条染色体的,包括染色体内部互作也有染色体之间的互作结果,其实从图2可以分明地看出七个和背景比较分明的互作矩阵。
单条染色体Hi-C互作图谱运行命令:
python /HiCPlotter_PATH/HiCPlotter.py -f Lib1_1000000_iced.matrix -tri 1 -bed Lib1_1000000_abs.bed -wg 0 –r 1000000 -chr chr2 -n chr2 –o chr2
#这里与全基因组Hi-C互作图谱的差异在于-wg参数设为0,表示输出的是单条染色体或者单条序列的HiC互作图谱
图3 Rose染色体内部Hi-C互作图谱
将我们绘制的单条染色体HiC互作图谱(上)和Rose文章图1的每条染色体Hi-C互作图谱(下)放在一起,可以发现我们绘制的结果很好地重复了NG文章的分析,但也有一些差异。比如NG文章的互作图谱看起来很细腻,这是因为分辨率设置差别,我们分析设置的参数为1000Kb,NG文章的分辨率大致在100Kb到500Kb之间,分辨率可以根据进行调整。
参考文献
1、Raymond O, Gouzy J, Just J, Badouin H, Verdenaud M, Lemainque A, Vergne P, Moja S, Choisne N, Pont C, et al (2018) The Rosa genome provides new insights into the domestication of modern roses. doi: 10.1038/s41588-018-0110-3
2、Servant N, Varoquaux N, Lajoie BR, Viara E, Chen CJ, Vert JP, Heard E, Dekker J, Barillot E (2015) HiC-Pro: An optimized and flexible pipeline for Hi-C data processing. Genome Biol 16: 1–11
3、Akdemir KC, Chin L (2015) HiCPlotter integrates genomic data with interaction matrices. Genome Biol 16: 1–8
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史