作者采用了Pacific Biosciences(PacBio)1.1亿条长Read(32×覆盖度,Read N50长度14.2kb)进行组装。
作者开发了一种汇编算法(MARVEL),该算法集成了一个两阶段Read纠正程序,可以保持长Read的完整性(补充信息部分2)。 MARVEL最终组装结果COntig N50为218 kb的。接下来,使用7×Illumina测序数据来纠正1%的Contig中的序列碱基错误,得到超过99.2%的序列准确性。根据Illumina的数据,估计杂合度为0.47%。
为了提获得Scaffold,我们使用Bionano Saphyr系统。 Bionano光学图谱鉴定了1.7%的Contig为嵌合体,然后将嵌合体打断,N50略微减少到216kb。最终的混合组装产生了Scaffold N50 为3 Mb的基因组。与20-Gb云杉基因组或22-Gb火炬松基因组组装结果相比,该组装结果分别改善了改善56和29倍。
为了评估基因组的完整性,作者利用了非外显子超保守元件(UCEs)的数量进行评估。作者发现在脊椎动物中保守的197个非外显子元件中的194个(98.5%)能够比对到此基因组中,证明基因组完整性较好。
为了进一步评估基因组的完整性,作者通过对来自22个组织的mRNA进行测序,并装配产生180,649个转录本,其包含有99%的保守核心真核基因,并获得迄今报道的蝾螈转录组中最高的BUSCO评分。超过85%的转录本(比对长度至少95%)能够比对到基因组上,证实了该基因组的高度完整性。借助于转录组,作者在蝾螈基因组中注释了总计23,251个蛋白质编码基因,与在其他脊椎动物基因组中发现的数目相似。
重复序列分析
重复序列含量65.6%,总共18.6Gb。LTR和LINE为主要的类型,并且包括长度超过10kb的元件。LTR插入时间分析,表明基因组经历了长时期的转座子转座,随后是最近的且明显持续的扩张爆发(图2d)
欢迎关注生信人
点击以下「关键词」,查看往期内容:
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史