11月16日Nature在线发表了粗山羊草基因组:Genome sequence of the progenitor of the wheat D genome Aegilops tauschii
美国加州大学戴维斯分校罗明成教授,美国农业部农业研究组织顾永强,约翰霍普金斯大学医学院Daniela Puiu, 乔治亚大学Wang Hao和亥姆霍兹慕尼黑研究中心的Sven O.Twardziok为第一作者,通讯作者是Steven L. Salzberg, Katrien M. Devos和Jan Dvořák。此外中国农业大学刘志勇,孙其信教授等也参与了此项工作。粗山羊草,时隔四年再次等上Nature,体现了麦类作物基因组的重要性。
1. 论文摘要
Aegilops tauschii(粗山羊草, AL8/78)是六倍体小麦D(Triticum aestivum,基因组AABBDD)基因组的二倍体祖先,也是小麦重要的遗传资源。 基因组较大和高度的序列重复阻碍了高质量基因组序列的获得。在这里,我们使用一系列先进技术,包括BAC测序,全基因组鸟枪测序和BioNano光学图谱基因组测序,来产生可以的达到参考基因组水平的小麦二倍体祖先Ae. tauschii ssp. strangulata AL8 / 78的基因组。与其他测序的植物基因组相比,包括更大的针叶树基因组,粗山羊草基因组含有非常多的重复序列。与其他测序基因组相比, 粗山羊草基因组含有更多的散在的复制基因,其染色体的结构演化速度比其他草本类基因组快上一个数量级。与其他草类基因组的共线性的衰减主要与染色体间的重组率有关。我们提出,大量非常相似的重复序列在重组中导致频繁的错误,并导致基因复制和染色体结构的改变,这推动了基因组的快速进化。
2. 论文生物学意义
鉴定到了一些粗山羊草独有的基因和基因簇。 Prolamin基因代表了几种独特的种子贮藏蛋白家族,是小麦面粉制作面包的核心。我们在粗山羊草中发现并表征了31个醇溶蛋白基因。另一类粗山羊草中的具有重要的实际意义的基因是抗病基因。使用抗病基因类似物(RGA)预测流程,我们注释到了了1762个RGAs。 .核苷酸结合位点(NBS)型RGAs倾向于在染色体末端附近聚集,共有81个RGA多基因座位被确定,最大的数目在6D(20个基因座),其次是7D和2D(16和15个基因座),最小的是在4D。位于假染色体上的38,775个HCC基因中
3.主要涉及到的组装方法
1. Illumina MiSeq BAC测序
3,578个MTP BAC,由42.222个BAC克隆组成。 每个BACend都用ABI 3730XL平台测序。
2. Scaffold组装
总共产生90,050个BACend序列,其中80,906个包含正向和反向序列,长度至少63bp。这些序列主要做组装验证用。
每个BAC池包含来自大约八个BAC克隆(从最少六个到最多十个)的Illumina MiSeq数据。大多数BAC克隆是有重叠的。相邻BAC克隆之间的平均重叠为〜25kb,每个池的总体基因组跨度平均为〜1Mb。每个BAC池测序数据使用SOAPdenovo组装,产生初始的contig和scaffold。移除覆盖率异常低的scaffold和完全被其他序列包含的scaffold。
为了进一步改进BAC池的组装,使用了先前发表的WGS数据,包括6个从1.6到8.6kb长度不等的mate-pair文库,平均read长度为89bp,主要用来进一步搭建scaffold。进而得到Aet v1.0版本基因组,scaffold的总长度是5.79 Gb,超过估计的基因组大小4.02 Gb的 44%。其中含有250,177个scaffold,N50为207,812bp,大于2KB的有96,546条,长度为5.71Gb。
重叠的BAC池合并。使用nucmer将一个染色体中所有池的scaffold彼此对齐,然后使用minimus2程序合并。如果BACend序列表明两个scaffold存在重叠,则不考虑其染色体来源,它们都被合并。合并时overlap至少2000 bp,identity至少为99%(过低参数对于高重复会导致错误组装)。最终将N50增加到410,889bp,并使组装总长度减少到4.46Gb。 这个组装结果记为Aet v1.1。
3.WGS read和scaffold组装
一个独立的WGS基因组被组装,主要增加scaffold的长度并缩小Aet v1.1中的gap。构建了五个WGS基因组文库,用Illumina HiSeq 2500测序仪测序,产生1.05Tb的数据,然后使用软件 DenovoMAGIC2(NRGene)组装。获得Aet WGS v1.0,N50为1,098,654bp。 NRGene后来使用另一个8-10 kb的mate-pair文库获得了另一个组装版本Aet WGS v1.1,这个产生了更长的scaffold(N50 = 11,362,824bp),其主要用于后面的Super-scaffolding组装。
产生了35×Pacific Biosciences 三代测序数据,并利用32.4X的Illumina WGS数据对其进行校正。校正后read用于scaffold的合并(见下文)。
4.scaffold合并
合并Aet WGS v1.0和Aet v1.1主要包括以下几个步骤:
(1)使用MaSuRCA中软件补gap模块填充Aet WGS v1.0中的gap。数据主要用的是Illumina数据,最终填充了超过300,000个gap并减少了525,538个contig,将contig N50的大小从16.4增加到29.2kb。
(2)从BAC池组装的Aet v1.1版本基因组中产生长度为5,12,25和50Kb的四个“人造”mate-pair文库。每500bp产生配对mate-pairs数据,每个文库产生7-10百万对read。然后用SOAPdenovo2对上一步获得序列进一步组装。
(3)将上步组装结果比对到基于BAC的组装的Aet v1.1中,其具有较大的重叠群并因此具有更好的邻接性。这些比对发现了Aet v1.1中的许多重叠群,这些重叠群跨越了WGS组装中的空位,我们使用Aet v1.1序列填补了这些空白。
第1至3步填充了56万个gap(占总数的83%),gap数目从671,689个减少到111,690个,长度从178个减少到49Mb。这些填充gap的步骤增加了contig N50的大小,从16.4到乐88.3 kb。
(4)使用PacBio数据填充gap,仍然使用MaSuRCA,这一步又关闭了6,761个gap,使N50大小从88.3kb增加到92.5kb。
此时基因组包含了相当多的短的(<10 kb)被其他scaffold或者contig完全包含的scaffold。通过使用bwa-mem将其移出。总共有51,520个与其他scaffold至少99.5%相同或包含被移除。进而获得组装版本Aet v2.0,其具有2,884,388bp的scaffoldN50和93,210bp的contig N50
5.光学图谱组装
粗山羊草基因组中 Nt.BspQI(New England BioLabs)每100kb产生大约15个切口,接近最佳频率,并被选择用于进一步的工作。用Nt.BspQI切割DNA分子,并根据IrysPrep试剂盒(BioNano Genomics)提供的说明标记切口。将标记的DNA样品加载到IrysChip纳米通道阵列(BioNano Genomics)上。用Irys成像系统(BioNano Genomics)使拉伸的DNA分子成像。将原始图像数据转换成bnx文件,AutoDetect软件(BioNano Genomics)生成基本标记和DNA长度信息。然后将bnx形式的DNA分子彼此对齐。用BioNano Genomics组装流程形成簇并组装成重叠群。
6.使用AL8 / 78 BNG图谱验证scaffold准确性,并分辨嵌合体
为了比较序列组装结果与AL8 / 78的BNG图谱,使用程序Knickers,用Nt.BspQI酶在电子酶切Aetv2.0基因组,并使用RefAligner在BNG图上对齐。这些比对结被果在IrysView中可视化。在Aet v2.0中的111,834个scaffold中有2,295个足够长度的序列BNG图谱进行了验证。其中120个是嵌合的,并且被分开,这将scaffold的总数增加到了111,973个。
7.Super-scaffold组装
使用AL8 / 78 BNG图谱重叠群作为指导,使用拼接算法Stitch生成super-scaffold。最终将111,973个scaffold减少到110,527个super-scaffold。同时使用了305个NRGene组装WGS v1.1的scaffold,将super-scaffold的数量减少到109,861个。这些super-scaffold的总长度是4,224,918,192bp。进而获得了Aet v3.0。
8.评估Aet v3.0的准确性和完整性
从NCBI下载195个BAC克隆的序列,进行评估。
9.染色体组装
在Aet v3.0(扩展数据图1b)的109,861个super-scaffold中,283个(占总序列的95.2%)被锚定在基于SNP的遗传图谱上,剩余的107,888个super-scaffold较短,总计只有199,614,049bp,占全部4,224,918,192bp序列的4.8%。在283个大型超级脚手架中,81(28.6%)个的顺序或方向是不确定的。最终获得组装版本Aet v4.0。
欢迎关注生信人