首先来了解一下这个能量中枢的基本概况,分为植物和动物。
一、线粒体基因组组装。
最佳方法是从基因组测序数据中捞取含线粒体的read,然后组装。用到的软件名称:ARC (Assembly by Reduced Complexity),下载地址:https://github.com/ibest/ARC
这个软件也是通过reads与近缘物种的线粒体序列比对来提取reads并组装,但优化的地方在于,第一次组装之后,使用组装出来的序列替代了参考的线粒体序列,并迭代进行比对、提取、拼接等步骤,用以延伸每次组装得到的结果,最终得到完整的序列:
二、植物线粒体
1、 植物线粒体基因组上的基因
高等植物线粒体基因组主要包括复合体Ⅰ基因( nad1、nad2、nad3、nad4、nad4L、nad5、nad6、nad7 和nad9) 、复合体Ⅱ基因( sdh3 和sdh4) 、复合体Ⅲ基因( cob) 、复合体Ⅳ基因( cox1、cox2 和cox3) 、复合体V 基因( atp1、atp4、atp6、atp8 和atp9) 、Cytochrome c 生物合成基因( ccmB、ccmC、ccmFC 和ccmFN) 、核糖体蛋白基因( rps1、rps2A、rps2B、rps3、rps4、rps7、rps10、rps12、rps13、rps14、rps19、rpl2、rpl5 和rpl16) 、核糖体RNA基因( rrn5、rrn18 和rrn26) 、tRNA 基因(trnN、trnD、trnC、trnE、trnQ、trnH、trnI、trnK、trnM、trnfM、trnF、trnP、trnS、trnW 和trnY) 以及matR 基因( 编码类成熟酶) 、mttB 基因( 编码转运子) 等。复合体Ⅰ、Ⅲ、Ⅳ和Ⅴ中的基因、核糖体RNA 基因、蛋白转位子和内含子成熟酶基因在线粒体基因组之间是保守的,而其他种类的基因序列保守,但数目是变化的。植物线粒体基因组中,都缺乏一套完整的、足够阅读所有密码子的tRNA 基因。它们普遍缺少Ala、Arg、Leu、Thr、Val 所对应的tRNA。有的植物缺少的更多,比如在拟南芥中,除了上述5 种外,Phe、eMet、Trp 的tRNA 也是丢失或失活的。所以,相应的tRNA 分子需要从细胞核或胞质中输入。被子植物中所有的线粒体基因使用通用遗传密码,并且第三密码子倾向于A 或T。典型的翻译起始密码是ATG,但是在rpl16,mttB,matR基因中,可能有另外的起始密码子。
2、结构特点
2.1 结构复杂。
线粒体基因组中包括几种不同类型( 环状、线性、大环、小环) 的DNA 分子,通过染色体步移方法获得的图谱非常复杂。小麦和玉米的线粒体基因组是由主环分子和多个亚环分子组成。亚环分子通常是由大同向重复( large directrepeat) 序列介导的重组产生的。小麦430 kb 的线粒体基因组主环上至少有10 对重复序列; 玉米主环分子含有一组特有的重复序列,重复序列间的同源重组导致出现不同大小的多个亚环分子。拟南芥线粒体基因组中含有的两个重复序列( 6. 5 kb 和4. 2 kb) 参与了重组,导致产生两个同向的大小分别是233 kb 和134 kb 的亚环分子。油菜线粒体基因组中存在一段2 427 bp 的重复序列,该序列介导的重组产生了125 kb 和97 kb 两个亚环分子。除了同向重复序列,一些线粒体基因组也含有反向重复序列。这种情况下,不会产生小亚环,但产生了等尺寸的环( 与母环不同,含有片段插入) 。由于存在这些亚环和等尺寸的环,高等植物线粒体基因组被认为含有多种结构分子。需要指出的是,这些不同结构分子不是异质的,因为等尺寸环和亚环是主环的衍生形式。高等植物线粒体的异质性是由sublimons 引起的,它们以低的化学计量学形式存在,与主环或任何其他亚环间没有共线性关系。对十字花科的油菜和拟南芥这两种植物的线粒体基因组进行比较分析发现,油菜线粒体1 /3 的基因组序列和拟南芥线粒体2 /3 的基因组序列没有同源关系。这说明物种分化之后,两种植物的线粒体基因组发生了修饰、序列插入或丢失,这些序列达到了拟南芥整个线粒体基因组的2 /3。在这个水平上,序列转移、插入或丢失被认为是进化中比基因组内部重排更重要的因子。这些非同源的序列中有的起源于叶绿体或细胞核基因组,但大多数序列与GenBank 数据库中的序列都没有同源性。另外,油菜、拟南芥和甜菜这三种双子叶植物线粒体基因组序列之间的共有序列只存在于编码序列和内含子中。这说明,植物线粒体基因组中基因间隔序列高度变化,流动性很强。植物叶绿体基因组中基因排列顺序比较保守,例如水稻、玉米和小麦叶绿体基因组中基因排列顺序完全相同,但植物线粒体基因组中基因排列顺序差别却很大,这也间接说明了植物线粒体基因组的复杂性。
2.2 基因密度低。
高等植物线粒体基因组最明显的特征是: 相对于全基因组的大小来说,它含有的基因太少。高等植物线粒体基因组是基因密度最小的线粒体基因组,其基因编码区只占整个线粒体基因组的10%左右。西葫芦的线粒体基因组密度最低,只有3. 9%是基因编码序列。这一比例相比植物叶绿体基因组来说也很低,在水稻和小麦叶绿体基因组中,编码序列分别占整个基因组序列的58. 8%和60. 4%,而在线粒体基因组中这个比例只有18. 0%和15. 9%,进一步说明线粒体基因组中基因密度很低。
尽管高等植物线粒体基因组大小范围很广( 已测序的基因组大小范围是222 ~ 983 kb) ,但基因数目( 52 ~ 60) 没有明显变化。高等植物线粒体基因组含有的基因数目比人类( 16.6 kb,37 个基因) 多,但比地钱( 184 kb,66 个基因)少。裸子植物苏铁线粒体基因组415 kb,含64个基因,比被子植物的稍多。对陆地植物的分析说明,一些基因从高等植物中丢失,但基因组大小却没有相应变小。丢失的基因有些似乎是转移到了细胞核中,然后其翻译产物转运到线粒体中; 或者线粒体的基因丢失通过细胞核中的同种异型基因进行补偿。例如,拟南芥线粒体中不存在rps13,在细胞核中也没有迁移的拷贝,但是,细胞核中有一个来自于叶绿体的rps13 拷贝,它编码一个线粒体RPS13 多肽。tRNALeu和tRNAArg在裸子植物苏铁线粒体中存在,但在被子植物中,这两个tRNA 分子丢失,需要从胞质中输入。需要指出的是高等植物线粒体基因组中有一些基因还没有被发现和鉴定。例如, rpl10 近来被发现存在于烟草和葡萄的线粒体基因组中,但在拟南芥、小麦、玉米和甜菜中并不存在。在已测序的高等植物线粒体基因组中,基因编码序列和内含子的核酸序列总长范围是: 53 ~72 kb; 这个数值与整个基因组大小相比是相当稳定的。这说明其余占整个线粒体基因组69%~93%的基因间隔区,是导致高等植物线粒体基因组大小差异的主要区域。
2.3 含有来自于叶绿体和细胞核的序列。
高等植物线粒体基因组含有与叶绿体和细胞核DNA 同源的序列。在高等植物线粒体基因组中,普遍存在着来自于叶绿体的基因片段,并且占有较高的比例。但其中共有的序列只有转运Asn、eMet和Trp 的tRNAs 序列。葡萄线粒体基因组中含有30 个来自于叶绿体的片段,共68 237 bp,占整个线粒体基因组的8.8%,占其整个叶绿体基因组的42.4%,在所有已测序的植物线粒体基因组中,这个数值是最大的。这些片段中只有9 个与其他植物线粒体基因组有同源性,其余都是葡萄线粒体基因组所特有的。水稻线粒体基因组中有17 段叶绿体来源的DNA 片段,大小32~ 6 653bp,相似性有61% ~ 100%,共22 593 bp,占整个线粒体基因组的6.3%。这22 593 bp 中,有1 140处碱基替换、45 处缺失和23处插入,由于序列的多处改变和RNA 编辑的缺失,导致其中的蛋白质编码序列往往是无功能的。但叶绿体来源的7 个tRNA 基因很可能有功能,因为有6 种氨基酸的tRNA 在线粒体中是不存在的,而来自叶绿体的tRNA 基因很可能弥补了这一缺陷。在低等植物地钱的线粒体基因组中,有27 种tRNA,但其中没有叶绿体来源的,这说明叶绿体基因序列向线粒体转移这一现象很可能是开花植物所特有的,在开花植物进化过程中,线粒体与细胞核之间、线粒体与叶绿体之间很可能存在频繁的tRNA 基因转移。植物线粒体基因组中,也存在着来自于细胞核的序列,这些序列主要是与反转座子序列同源,并且在线粒体基因组中占的比例较大 。在甜菜中,最短的序列是25bp,最长的序列是2 827bp,它们与Gypsy 型反转座子、( R)-mandelonitrilelyase 基因、At5g13390( 也称作nef1) 等基因有同源性。在水稻中,来源于细胞核的序列与rps10、rps11 和rps14 等基因有同源性,并且包含6 个tRNA基因序列。在这些序列中,没有序列在任意两种植物间是共有的,这说明它们是独立整合的。叶绿体DNA 向线粒体基因组中迁移是单向的,但细胞核DNA 与线粒体DNA 的迁移是双向的。高等植物核基因组、线粒体基因组和叶绿体基因组之间存在着广泛的交流。例如,在水稻中,有6 段序列( Ⅰ ~ Ⅵ) 在细胞核、线粒体、叶绿体基因组中都存在,所包含的基因及序列长度分别是rpl2 (序列Ⅰ,1 207 bp) , rpl2 ( 序列Ⅱ,1 468bp), rpoB 和rpoC1( 序列Ⅲ, 901 bp) ,ndhK( 序列Ⅳ,229 bp) ,atpH( 序列Ⅴ, 142 bp) 和rpl14( 序列Ⅵ,216 bp) 。这6 段序列很可能是来源于叶绿体,其中Ⅰ、Ⅱ、Ⅲ片段是直接独立地从叶绿体转移到了其他基因组,而Ⅳ、Ⅴ、Ⅵ片段是先从叶绿体转移到线粒体,再从线粒体转移到细胞核。
2.4 含有Ⅱ型内含子和Ⅰ型内含子。
高等植物线粒体基因组中,cox1、cox2、nad1、nad2、nad4、nad5、nad7、rps3、ccmC、trnA、ccmFC、rps10、rpl2 和ccb438等基因中存在内含子。根据内含子结构特点、保守序列以及独特的二级结构特征,可以将其分成两类: Ⅰ型内含子和Ⅱ型内含子。Ⅰ型内含子主要分布在原核生物、噬菌体、细胞器和细胞核基因组中; Ⅱ型内含子存在于真菌和植物的线粒体基因组、以及植物叶绿体基因组中。在已测序的被子植物线粒体基因组中,内含子的数目是20 ~ 24 个,除了西瓜cox1 基因中存在Ⅰ型内含子( 通过水平转移的方式来自于真菌) 外,其他都是Ⅱ型内含子。Ⅱ型内含子已经在十几个线粒体基因中发现。在含有Ⅱ型内含子的基因中,nad1、nad2 和nad5 显示反式剪接,外显子单独转录,然后剪接成成熟转录本。内含子含量和剪接模式的多样性已在nad1、nad4、nad7、cox2 和rps3 中发现,这主要包括内含子的丢失、顺式剪接往反式剪接的转换。
2.5 基因编码序列变化慢,但基因间隔序列变化快。
高等植物线粒体基因组中基因编码序列很保守,不同植物间基因序列同源性通常在95% 以上。Tian 等比较了籼稻和粳稻的线粒体基因组,发现这两个亚种之间共存在96 个SNPs,25 个indels,即SNPs 出现的几率是0.02%, indels出现的几率是0.006%,这两个几率分别比两者叶绿体基因组之间的几率低2.5 倍和3 倍,比两者核基因组之间的几率低21 倍和38 倍,比动物线粒体基因组之间的几率低40 ~ 100 倍。低突变率为线粒体基因组中非编码序列的积累提供了方便,进而方便了整个基因组序列的扩展。“突变压力学说”认为,基因组大小与突变率呈负相关。高等植物线粒体基因组之所以在所有生物中最大,可能要部分归功于它的低突变率。但是,高等植物线粒体基因组的结构变化很快,植物线粒体基因组的重排率比叶绿体基因组和动物线粒体基因组要高很多。高等植物线粒体基因组间存在明显的分子内和分子间重组,导致不同植物线粒体基因组结构的差别非常大,甚至不同亚种之间的线粒体基因组结构差别也很大。由于结构变化大,因此不同植物线粒体基因组上的基因排列顺序差别很大,几乎找不到同源性,只能找到一些排列顺序相对保守的基因簇,比如rrn18-rrn5、nad3-rps12 和rps3-rpl16。对整个线粒体基因组的序列分析结果显示,在任意两种植物之间,绝大多数基因间隔序列是不保守的,甚至在两种紧密相关的物种,比如拟南芥和油菜之间,或者任意两种禾本科植物之间也是如此。例如,尽管油菜线粒体基因组只有222kb,但当它与拟南芥进行比较时,其特有序列达78.7 kb,占整个基因组的1 /3。油菜特异序列的组成是: 13.2% 为线粒体起源( 这些序列可以在非拟南芥的高等植物线粒体基因组中发现) ,5. 9%为叶绿体来源,0. 3%为细胞核起源,其余部分起源未知。甜菜细胞质雄性不育系TK81-MS 中总共有68 kb( 大约占总基因组的13. 6%)序列是正常甜菜品种TK81-O所没有的。在这68 kb 序列中,线粒体起源、核起源、叶绿体起源和线粒体-episome 起源的序列分别占7.6%、17. 9%、0.1%和4.6%,而剩下69.8% 的起源是未知的。这说明,物种特异线粒体序列的获得和丢失在进化层面上是非常快速的过程,并且序列迁移并不是这个过程的主导因素,未知起源序列的产生很可能存在其他的机制。进一步分析推测,大多数物种特异线粒体序列可能来自于已存在的序列,这些序列发生广泛的重排,导致线粒体基因组的“混乱”。拟南芥核基因组差不多是陆地植物中最小的,但是其线粒体基因组是中等大小,比同是十字花科的油菜大了将近一倍,这说明线粒体基因组是独立进化的。
2.6 高等植物线粒体基因组中含有较多的重复序列。
高等植物线粒体基因组中分布着大量的重复序列,这些重复序列从几bp 到几十kb 不等,占整个线粒体基因组的6.84% ~ 58.34%。不同植物线粒体基因组上的重复序列没有同源性,这说明它们在高等植物进化过程中是由每个物种独立获得的。这些重复序列包括长重复序列和短重复序列。长重复序列又包括同向重复和反向重复,其中同向重复占多数。位于长重复序列上的基因便成为多拷贝基因。比如小麦中的rrn26-trnQtrnK、rrn5-rrn18-trnfM、atp6、atp8、trnD 和trnP; 玉米中的atp1、nad1、rps3 和nad2; 拟南芥中的atp6; 甜菜中的rrn26-trnfM; 油菜中的cox2;西瓜中的sdh3、trnQ 和trnG 等。除了长重复序列外,高等植物线粒体基因组上还分布着大量的短重复序列,这些序列的长度在几十bp至几百bp。短重复序列对高等植物线粒体基因组的进化非常重要,包括组织结构和基因组总长度的变化。这些短重复片段大多位于基因间隔区域,只有2% 的重复序列发生在基因编码区和内含子区,同时它们又可分成几十个不同的家族。
三、动物线粒体基因组
高等动物mtDNA 是共价闭合的环状双链结构. 低等动物的mtDNA 呈现不同的形状,如双核小草履虫(Paramecium aurelia)和褐水螅(Hydrafusca)线粒体基因组呈线性;在利什曼原虫(Leishmania tarentolae)和布氏锥虫(Trypanosomabrucei)等动物中,线粒体基因组具有十分特殊的网络结构,包括两种类型的分子:数千个小环分子(1~3 kb)和25~50 个大环分子(20~40 kb)。
动物线粒体DNA 在基因组成上具有较高的保守性,一般由2 个非编码区和37 个编码基因组成. 2 个非编码区是控制区(control region)和L-链复制起始区(origin of L-strand replication,OL). 37 个编码基因包括2 个rRNA 基因(12S 和16S),22 个tRNA 基因(trnA、trnR、trnN、trnD、trnC、trnQ、trnE、trnG、trnH、trnI、trnL1、trnL2、trnK、trnM、trnE、trnP、trnS1、trnS2、trnT、trnW、trnY 和trnV),以及13 个mRNA 基因包括3 个编码细胞色素氧化酶亚基(cox1、cox2、cox3)、ATP 酶亚基基因(atp6 和atp8)、细胞色素b(cytochrome b,cyt b)和NADH 氧化还原酶7 个亚基(nad1、nad2、nad3、nad4、nad4L、nad5 和nad6);其中NADH 氧化还原酶7 个亚基大约占动物线粒体基因组的40%. Anderson et al最早对人(Homo sapiens)的mtDNA 进行了完整的序列分析,其线粒体基因组长度是16 569 bp。
此外,动物线粒体基因组测序研究迅速发展,上千种动物的线粒体基因全序列已被分析(http://www.bch.umontreal.ca),几乎包括了所有主要动物类群,但不同动物间线粒体基因组大小变异很大,尤其在低等的原生动物中. 后生动物线粒体基因组大小变异相对较小,一般为15.7~19.5 kb。 迄今,孑遗疟虫(Plasmodium reichenowi)的线粒体基因组最小,仅为5 966 bp (GenBank 序列号:AJ251941),领鞭毛虫(Monosiga brevicollis)的最大,达76568 bp (GenBank 序列号:NC004309),是前者的12.83 倍. 脊椎动物中,马达加斯加彩蛙(Mantella madagascariensis)的线粒体基因组最大,长达22 874 bp (GenBank 序列号:AB212225);其次是圆口纲的大西洋盲鳗(Myxine glutinosa,18 909 bp;GenBank 序列号:AJ404477)。
摘自:
1、Hunter S S, Lyon R T, Sarver B A J, et al. Assembly by Reduced Complexity (ARC): a hybrid approach for targeted assembly of homologous sequences.[J]. Biorxiv, 2015.
2、张晓, 张锐, 侯思宇,等. 高等植物线粒体基因组研究进展[J]. 中国农业科技导报, 2011, 13(4):23-31.
3、黄族豪, 刘迺发. 动物线粒体基因组变异研究进展[J]. 生命科学研究, 2010, 14(2):166-171.
欢迎关注生信人