我们距离完整的人类基因组还有多远?一步之遥?
生信干货
NOWM ·2020年9月2日 21:52
2001年第一个人类基因组草图发布以来,科学家们一直致力于探究人类的完整基因组序列。短读长测序方法(illumina sequencing)往往不能解决基因组中的重复序列和高GC含量等区域,导致至今为止我们都不能对中心粒(centromere)一探究竟。NIH的Adam Phillippy和UC Santa Cruz的Karen Miga组织了一个国际团队(Telomere-to-Telomere (T2T) consortium, https://sites.google.com/ucsc.edu/t2tworkinggroup)利用长读长测序技术(Oxford Nanopore and PacBio sequencing)完成了第一个人类完整的X染色体端粒到端粒(T2T)的测序,并分析了其中心粒序列及其甲基化特性。
X染色体端粒到端粒的组装
1. CHM13hTERT 细胞系(46 + XX)的高质量的DNA。CHM13的基因组可以看作一个近乎完全的纯合基因组,或者有的研究直接称其为单体型基因组(haplotype genome)。正是由于CHM13的特殊性,降低了后面组装的难度。
2. 39× 的ultra-long reads 和 70× PacBio reads。利用Oxford Nanopore 和 PacBio sequencing产生高质量的原始数据,以及结合Phillippy组开发的Canu进行原始组成。之后,利用Illumina linked-read barcodes (10x Genomics) and optical mapping (Bionano Genomics) 进行矫正。3. 手动矫正及组装X染色体的中性粒区域并利用PacBio high-fidelity (HiFi) long reads和ddPCR和Southern blotting进行验证。1. 利用高质量长读长数据,首先组装出了一个高连续的CHM13的基因组(N50=75 Mbp)而现有的常用人类基因组模版GRCh38的N50只有56 Mbp。然后利用短读长数据进行矫正,最终得到了一个包含448个contigs的2.94 Gbp的基因组(N50=70 Mbp)。然后基于Bacterial Artificial Chromosome (BAC)来比较CHM13组装和GRCh38基因组。
CHM3全基因的contigs与GRCh38的对比2. 利用X染色体的微卫星重复序列的特有结构和单核苷酸变异来找出特有的ultra-long reads,然后组装这些特有ultra-long reads为中心粒区域(centromeric satellite array on the X chromosome (DXZ1))。DXZ1就是X染色体上高度有序的微卫星序列区域,该区域的序列首次被揭示。接着,通过一系列的实验验证DXZ1区域并且再次利用多种原始reads进行矫正。最终,大约3.1 Mbps的高度重复序列被成功组装。这是第一次人类历史上看到高质量的DXZ1区域,同时也是人类第一次组装出0 空缺(gap)的X染色体(29 gaps在GRCh38基因组中)。
3. 利用Nanopore sequencing可以揭示甲基化序列的特性,文章进一步分析了X染色体的甲基化特性,文章发现了多个低/无甲基化的区域,比如:拟常染色体区(pseudoautosomal region 1)和DXZ1和DXZ4等区域。
该研究完整的组装出了人类第一条完整的染色体,并在毫无前人研究的条件下,对X染色体的高度重复的DXZ1区域进行了序列测序和验证。所以当该文章首次出现在bioRxiv上时,就造成了学术圈的广泛讨论和多家媒体的报道。同时,作者们也表明他们将继续对其他的染色体进行完整测序,希望能在2020年公布出CHM13所有的染色体的完整序列。这是否也意味着我们离完整基因组测序只有一步之遥?其实,在T2T测序上我们还有很多困难需要克服,包括但不限于以下几个方面:1. CHM13是一个单倍型基因组,所以其组装难度相对于具有杂合性的二倍体基因组是简单的。那么,我们何时能够得到一个人类phased的二倍体基因组的完整序列?2. X染色体相对于其他一些常染色体来说,组装难度也不大。那么,我们是否能快速及准确的完成其他染色体的T2T测序?3. 从方法学角度,目前的中心粒区域都需要人工组装和矫正。那么,自动化的组装软件何时能够产生?4. 虽然该研究验证了DXZ1组装没有大的结构变异,但是,我们何时才能得到DXZ1的高准确率的序列。最后,如果你对T2T consortium有兴趣,可以到该组织的网站去查找/咨询。Miga, K.H., Koren, S., Rhie, A. et al. Telomere-to-telomere assembly of a complete human X chromosome. Nature (2020).Logsdon, G.A., Vollger, M.R. & Eichler, E.E. Long-read human genome sequencing and its applications. Nat Rev Genet (2020).Lander, E., Linton, L., Birren, B. et al. Initial sequencing and analysis of the human genome. Nature 409, 860–921 (2001).