近日bioRxiv发表了中科院遗传所梁成志研究组开发的显著提升Contig N50的组装方法HELA,题目为“Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads”。HERA非常有用,不仅可以组装高连续性的Contig,还可以填补了混合组装基因组图谱或Scaffold中的GAP,填补和纠正遗传图谱或HI-C数据组装的染色体的GAP和错误。通过已知的GAP长度有助于选择正确的路径。序列之间的连接信息有助于确定序列在染色体上的顺序和方向。
摘要
由于在复杂的真核基因组中存在大量的重复序列,导致基因组中短的Contig不能锚定或错误锚定到染色体上,因而这种片段化和不完整性的基因组失去了作为参考序列的价值。这里作者报道一个新的方法-高效重复组装(HELA,Highly Efficient Repeat Assembly),这其中包括一个新概念,称为连接图和构造图的算法。HERA使用单分子测序数据高效率解决重复序列,并整合光学图谱和HI-C数据使组装结果达到近染色体水平的Contig。作者测试了水稻R498、玉米B73、HX1和苦荞基因组,HERA可以正确地组装水稻中的大部分串联重复序列。使用已发表的玉米和人类测序数据相对于已发表版本,基因组的连续性已经得到显著的提升,玉米的Contig N50已经从1.3 M提升到61.2 MB,华夏一号人基因组从从8.3 MB提升到54.4 MB。我们把96.9%玉米参考基因组中的GAP填充了(只剩下76个GAP)。比较HELA组装的HX1和人类GRCH38参考基因组显示GRCH38很多GAP被填充例如,而GRCH38包含了一些潜在的错误也可以被修复。组装苦荞麦PikU1基因组为12个Scaffold,Contig N50达到了27.85 Mb。HELA作为一个新的基因组组装/单体型组装方法,对于复杂基因组的高质量组装,改善现有参考基因组的的连续性和完整性,包括校正重复区域中的装配错误,起到了重要作用。
1、HERA主要算法概览
在这项工作中,HERA使用其他组装工具(如PBCR,CANU、MECAT或FALCON)生成的Contig进行构图,这些Contig作为锚定节点,并将校正后的Read作为扩展节点(图1a,b)。当然其他类型的序列,如选定的Read也可以用作锚定节点。通过在相同扩展准则下的进行图的遍历,在起始锚定节点和一组结束的锚定节点得到了一组路径(图1c)。通过计算每对节点之间的路径数,重叠图被缩减为连接图,其中不同的重复拷贝用独立连接线连接锚定节点(图1d)。在所有路径之间,HERA都识别正确的路径,从而将邻近的锚点组装成Contig(也包括侧翼序列)。single-copy-only 序列节点之间的组装是简单的。对于重复序列组装,Hela充分利用了序列间的细微差异来区分不同的重复拷贝(图1a)。在路径扩展过程中,来源于相同的重复序列拷贝的Read相对于来源于不同的重复序列拷贝,由于其具有更高的序列相似度通常有更高的被选择的机会。因此,重复序列的侧翼序列通过利用来源于同一重复序列拷贝的Read实现有效地正确的连接,因此完成重复区域序列的正确组装。
有效连接路径通常是在考虑测序错误后的在所有路径中得分最高的路径。对于两个几乎相同的重复拷贝,利用Read进行延伸过程中因为不能正确区分两个拷贝的Read,造成不可避免的路径延伸错误 (图 1e,f)。解决这个问题的方法有几种:首先,通过移除其中一个连接锚节点可以更自信地连接到另一锚节点(图1e);第二,使用BioNANO基因组图谱或mate-pair信息进行纠正(图1g);第三、利用遗传图谱或HI-C数据中找出正确的路径。
图1HERA组装算法
(a)重复的两个copy(R1和R2)彼此相似,但它们也包含了差异的序列,这可以在原始Read中找到。Read在两个的copy的比对的 junction位点(重复序列和非重复序列的交界点)因为比对不上会突出出来,作为unique序列。
(b)重叠图的子图对应于(a)总基因组片段和测序Read的展示。测序Read可以分为三种类型:unique的Read(U)、repeat的Read(R)和Junction的Read(UR). 节点仅仅只是为了展示,他们放的位置可能并不正确。
(c)从Contig末端C1H的路径可以扩展到其他Contig上,包括真实路径C2H,错误路径C4T以及可能来自背景的其他路径(CJH)。
(d)表示出每对Contig之间的所有的路径(NP)的连接图。
(e)连接图的子图,并具有冲突连接的实例。conflicting indices of two contig ends were: CI54t = 211/215 = 0.98; CI78h = 211/218 = 0.97.两个重叠端的冲突指数为:Ci54 t=211/215=0.98;Ci78h=211/218=0.97。These conflicting connections can be resolved because the number of paths between C365t-C55h
was very small, so that C78h-C365t can be connected first. (f) Sequence alignments showing a
(f)序列比对表明在C78中至少36 kb的片段与C55h的连接序列相似,C78h 18 kb序列与C365t高度相似。
(g)通过BiONANO基因组图谱证实C54t-C55h和C78h-C365t的连接是正确的
2、Hela组装的串联重复序列。
来源于不同拷贝的重复序列的Read由于存在测序错误和序列变异,导致并不是所有的相同的锚点之间的路径具有相同的长度。此外,来自串联重复或复杂重复的路径可以由于包含不同的重复单元而导致不同的路径长度,从而导致在长度分布图中存在多个峰(图2)。相邻峰间的差异对应于具有可能附加序列的重复单元。路径的分布长度可用于估计重复的长度,路径序列可用于确定重复是否包含串联单元以外的序列。
图2 Hela组装的串联重复序列
(a)水稻R498染色体5号染色体的单位重复序列长度为65 kb。上部绿色横条代表基因组序列,较低的蓝色条形表示BiNOANO图谱。
(b)R498染色体8号的重复序列,单位长度为22 kb。
(c)HERA生成的(a)中重复序列路径的长度分布。
相邻峰之间的强度为65 kb,与(a)中的重复单位长度相匹配。第二峰代表两个重复单元(130 kb)的整个区域。
(d)(b)图中侧翼两个Contig之间的路径长度分布,路径分为两个簇,两个峰之间的距离约为35kb。
(e)(b)图重复序列分布的示意图。在这个区域,有两个重复单元被13 kb的不同重复单元分开。REF表示重复序列包括两个22个KB的单位序列;ctg表示被连接的侧翼contig;cns1和cns2,不包括ctg中所示的两个contig序列,分别代表(d)中的第二和第一峰。
3、组装结果展示。
分别对水稻、玉米、人和苦荞基因组组装的研究结果。
如有任何问题欢迎大家加入WeGAP讨论社区
扫描二维码即可加入
更多精彩内容,欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史