飞来峰上千寻塔,闻道鸡鸣见日升
终于轮到2017年的主角—雄鸡登场了。素来对生肖,星座什么的不感兴趣的小编最近对鸡这个生肖近乎着迷,这是因为…小编的宝宝就要在鸡年和小编见面了(偷笑)。于是小编决定在这辞旧迎新的日子和大家分享一下有关鸡基因组的一些故事。
一、第一篇鸟类基因组文章—鸡基因组 鸡基因组是很早的一批被全基因组测序并拼接的物种。测的是一只来自red jungle fowl(小编“bing”了下,发现它被翻译成“红原鸡”)近交系的雌性鸡。之所以选择雌性,是因为鸡等鸟类的雌性性染色体为杂合(ZW型),而雄性是纯合(ZZ型)。 鸡基因组是第一个被全基因组测序的非哺乳类羊膜动物基因组。在它之前被测序的动物基因组仅限于人,黑猩猩,大鼠,虎河豚,果蝇,线虫等。虽然鸡是重要的家禽,但是排在最早的一批测序物种中,小编觉得还是主要和它简单的基因组结构有关。 鸡基因组大小为1Gbp,20,000-23,000个编码基因。和人基因组相比,散在重复序列,假基因和片段复制(segmental duplication)显著减少,且近期的转座子转座事件少。这也许是其基因组结构相对简单的原因。 鸡基因组文章发表于2004年底,文章中提到基因组组装主要利用了6.6X全基因组shotgun reads,结合一些plasmid,fosmid,和BAC-end read pairs。这一步的组装用的是PCAP软件。之后,利用一些BAC序列辅助拼接,得到ultracontig;利用遗传图谱辅助染色体拼接和定位中心粒,端粒;利用EST和mRNA序列辅助序列的排列和序列方向的确定。最终,得到574个片段,包括84个ultracontig(根据BAC物理图谱排序),490个supercontig(根据shotgun read pairs排序,但没有对应的BAC物理图谱)。组装出的1.05G序列中,933Mb定位特定的染色体,907Mb方向确定。 文章从基因组结构和进化角度对鸡和人基因组做了详细比较,总结一下,结论主要有以下几点: 1. 鸡基因组和人基因组存在大段的共线性区域。鸡基因组染色体间移位(translocation)很少,染色体内部重组(比如染色体倒位)更常见。 2. 鸡基因组和人基因组非编码RNA的共线性关系不同于编码基因。暗示进化方式不同。 3. 多个基因家族的收缩和扩张是哺乳动物和鸟类独立进化的主要动力。 4.鸡基因组每条染色体的大小跨度很大,所以分为macrochromosome(长染色体)和microchromosome(短染色体)。染色体大小与重组率,序列G+C碱基比例,CpG岛量,基因密度负相关;与重复序列密度正相关。 5. 鸡基因组的短染色体和长染色体的端粒区域基因的同义突变率高。 6.与哺乳动物基因组相比,鸡基因组的反转录酶主要是CR1 line类型,这种专一性决定鸡基因组相对缺乏由于反转座形成的假基因。 7.与哺乳动物基因组相比,鸡基因组在距今5,000万年内没有SINE这种反转座子活动。 8.鸡基因组和人基因组至少有70 Mb序列是在两个物种中都行使功能。
二、鸡遗传图谱 在同一期nature,还发表了一篇鸡遗传图谱文章。 这篇文章共选了三只鸡进行测序研究。一只雄性肉鸡来自封闭饲养的欧洲品种,一只雌性蛋鸡来自封闭饲养的瑞典品种,一只雌性中国乌鸡来自一个广泛杂交的群体。这三只鸡各测序0.25X。 经过测序分析,得到不同的鸡品种之间的SNP密度均为5个SNP每kb。这个密度是人的六到七倍,大猩猩的三倍,和鼠类似。 文章提到,大部分驯化鸡之间的核酸多态性在5,000到10,000年,驯化之前已形成。已知种鸡形目的同义突变率为1.8X10-9个位点每年,这将形成5个SNP每kb的时间推回到大约一百四十万年前。 之前提到,驯化的鸡和野生鸡之间,驯化鸡之间SNP密度相似(均为5个SNP每kb左右),这与动物驯化是从很小的群体开始的假说相悖。但也有可能是由于在驯化过程中,品种没有完全固定时,仍存在和野生鸡杂交的情况。 虽然上述两篇文章发表的年代过于久远(在基因组研究中,尤其是近期的基因组研究,几乎半年就是一个世代),但是文章的研究内容和研究方法都堪称经典。在小编阅读这两篇文章时,更多的是赞叹当年的研究者扎实的基本功,完全形成闭环的分析和逻辑推理。所以推荐一读。
三、48种鸟类基因组研究 鸡基因组是鸟类第一个完成全基因组拼接的物种,在接下来的若干年,又陆陆续续有火鸡基因组,鸭子基因组等完成测序。在2014年底,华大等科研机构在science杂志上发表了48个鸟类基因组的全基因组比较分析,进化分析等一系列功能分析文章。在这一系列分析中,华大等完成了45个鸟类的全基因组测序及分析。除了虎皮鹦鹉(Illumina+GS+FLX+PacBio),其他44个鸟类都是利用Illumina测序平台完成测序。45个鸟类中有20个达到50X的全基因组覆盖度,25个测序深度相对低(30X)。最终,20个测序深度达到50X的物种其scaffold N50达到1.2到6.9 Mb,25个测序深度在30X的物种其scaffold N50平均在48kb左右。对于鸵鸟和虎皮鹦鹉,其进一步利用了光学图谱,scaffold N50分别达到17.7Mb和13.8Mb。 大规模的鸟类基因组测序确定了绝大部分鸟类的基因数较少,为人基因组基因数的70%左右。鸟类祖先通过大片段丢失从而丢失了大量的基因,也进而导致长染色体(macrochromosome)逐渐形成大量的短染色体(microchromosome)这样比较特别的现象。
四、48种鸟类进化研究 在鸟类基因组一系列分析中,进化分析做得详实而仔细。鸟类物种进化树是截至目前小编看到的构建起来比较纠结的物种进化树之一。主要原因有:incomplete lineage sorting(此进化生物学现象带来的问题是虽然根据大部分基因做出的进化树符合物种进化树,但是有些基因做出的进化树与物种进化树相悖);鸟类进化经过了一个快速扩张(rapid radiation)的时期,对于这样的物种进化树,几个基因的进化树不能反映真实情况;核苷酸序列G+C比例不同造成的偏差(nucleotide base composition biases);构建进化树数据类型的不同;及构建进化树数据的不完整(某些节点的物种数据的缺失)等。 针对上述提到的问题,本篇文章在构建进化树时都做了相应的处理(对于具体细节,建议对物种进化感兴趣的小伙伴自行研读本篇文章,以后有机会小编再与大家探讨)。最终得到了这样一张漂亮的鸟类物种进化树。 利用这样构建完好的鸟类物种进化树,文章研究了鸟类进化树不同分支几个趋同性状的进化关系。其中的一个性状为“鹦鹉学舌”。进化树支持三个分支的独立进化或是两个分支性状获取(蜂鸟(hummingbird)及鹦鹉(parrot)和鸣禽鸟(oscine songbird)的祖先)伴随两个分支性状丢失(新西兰雷恩鸟(New Zealand wren)和suboscine)。然而,根据进化上的最简约(parsimony)原则,独立进化更有可能。
参考文献 1、International Chicken Genome Sequencing Consortium. Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate evolution. Nature, 2004, 432(7018): 695-716 2、International Chicken Genome Sequencing Consortium. A genetic variation map for chicken with 2.8 million single-nucleotide polymorphisms. Nature, 2004, 2004, 432(7018):717-722 3、Zhang G, et al. Comparative genomics reveals insights into avian genome evolution and adaptation. Science, 2014, 346(6215): 1311-1320 4、Jarvis E. D., et al. Whole-genome analyses resolve early branches in the tree of life of modern birds. Science, 2014, 346(6215): 1320-1331