古多倍化在被子植物进化适应的遗传贡献
生信干货
大肥兔子 ·2020年10月16日 02:44
大家好今天给大家分享有关植物文章,农学的小伙伴可以仔细阅读一下哦!祖先全基因组复制(WGDs 或polyploidy)在植物中是正常的,一些全基因组复制事件的发生伴随着严重的地球环境的改变。因此,全基因组复制事件可能促进了植物的适应性。然而仍然缺乏经验证据来支持这些假设。这篇文章,我们通过调查在被子植物系统发育层面从祖先全基因组复制事件中保留下来的复制基因,以及针对探索遗传证据来支持重要的多倍化事件。在我们所选取的25个物种中,那些复制的基因从三次独立的全基因组复制事件(分别在~120Ma,66Ma和<20ma)中协同保留。基因家族的功能在低温和黑暗下通常保持基因复制在8次独立出现在白垩纪-古新世全基因组复制事件之后,在白垩纪-古新世期间具有全球变冷和黑暗环境的双重压力。除此之外,共同保留的复制可以作为促进了与压力有关通路产生的坚实证据。另外,全基因组复制之后,在基因广度上转录因子(transcription< span=""> factors)功能在压力下趋于保留重复,并且协同选择的基因在许多世代中都保留了基因重复基于这种环境压力。因此本文结果表明,被子植物的古多倍化事件在其适应全球环境的改变的进化历史中起了促进作用。关键词:全基因组复制、古多倍化、适应性进化、phylogenomic、白垩纪-古新世、基因调控网络被子植物(或也称有花植物)是植物王国中多样性最多的植物,大约已知有350000种。达尔文描绘了晚白垩纪中期“一个恼人之谜”-被子植物快速发展和早期多样性的形成。当前,被子植物作为地球上的优势物种,从热带到极地地区以及水生地区都有覆盖。这种成功得益于被子植物进化历史中的全基因组复制事件。全基因组复制事件被认为是进化上的重要驱动力,不管是物种形成、适应性进化或是多样性产生。最近的两次删除和巨大影响已经说明全基因组复制事件相比之前的进化历史更广布于有花植物中。之前的两次古老的全基因组复制事件被认为在被子植物和种子植物中是有代表性的。被子植物两个主要的进化枝,即双子叶和单子叶植物进化枝,在早期的进化历史中都经历了古多倍化事件,它们分别被称作gamma(γ)和tau(τ),另外全基因组复制事件出现在许多具有共同祖先的类群中,比如菊科、十字花科、葫芦科、豆科和禾本科Asteraceae, Brassicaceae, Cucurbitaceae, Fabaceae, and Poaceae。除此之外,全基因组复制事件出现在很多谱系lineage(随不同时期的一系列祖先和后代种群,通常指单一的正在进化的物种,但也可能包括来自共同祖先的多个物种)中。例如,拟南芥的三次全基因组复制事件(γ-β-α)出现于从单子叶植物中分化出来之后;香蕉中的musa一支的三轮全基因组复制事件出现在从禾本科分离之后。另外,之前的研究已经发现全基因组复制事件不是在被子植物系统发育位置中漫无目的分散式的,而且暗示全基因组复制事件是受环境选择的。全基因组复制事件出现在白垩纪-古新世(K-Pg)且独立存在于许多植物谱系中,表明全基因组复制事件有能帮助物种度过极端环境的作用。多倍化可以协同C4 grassland的扩张和对最近的冰川期的最大适应。因此全基因组复制推测对于协同度过极端环境和灭绝事件。然而,全基因组复制事件在适应性进化过程中,促进和具有很强的重要性在遗产层面的证据仍存在较大空白。众所周知,多倍体通过添加一组额外的基因组同时复制成百上千的基因,这些基因为进化提供了大量的遗传材料,在随后的分化和二倍化过程中,大量的基因很快恢复到单拷贝阶段,而保留那些被认为有特殊重要性的遗传特性比如新功能化的和子功能化的基因。除此之外,复制的基因可能会导致基因调控网络的改变,这些改变有利于提高植物的适应性。为了探索全基因组复制事件的重要性,本文全面的跟踪了25个植物物种全部基因家族的进化历史,并且发现遗传修饰发生于全基因组复制事件之后。首先,选取被子植物中具有代表性的25个测序的植物基因组,这些基因组被用于全部重建基因家族,并且通过系统发育分析去注释那些在全基因组复制事件之后被保留的重复基因。接下来,我们看注释的这些在全基因组复制事件后保留重复的基因家族从某些极端环境改变到遗传水平下的潜在选择信号。最后,通过转录组数据和整合之前已报导的通路,重建基因调控网络,从我们提供的证据上显示,在环境选择压力下,保留的重复序列能够促进基因调控网络响应。为了辨认植物全基因组复制事件中促进了哪些遗传特性的产生,本文调查了21个被广知的在被子植物进化历史中的多倍化事件。本文选取了25个基因组测序的植物并且从蛋白质翻译水平上选取了基因家族。对66509个直系同源组利用OrthoMCL工具寻找直系同源基因。在这些直系同源组orthogroups中,12077个直系同源组具有4个或多个基因,包括来自外类群(小立碗藓、卷柏、无油樟)中至少一个基因被用于构建系统发育树。接下来,系统发育分析被查找那些复制事件来自于哪些基因家族的系统发育。图1 在陆生植物的进化历史中,推断在每一次的全基因组复制事件后大量的基因家族保存下来,然后复制系统发育树展示了本文研究的25个物种的拓扑结构和分化时间。25个物种的进化关系基因是基于当前被接受的拓扑结构(APG系统),分化时间在TimeTree 网站上算出。已知的全基因组复制事件用圆形标出,三倍化事件用方形标出。在120Ma,66Ma,<20ma< span="">是全基因组复制事件发生频率较高的地方,分别用绿色、橙色、和蓝色代表。在每个全基因组复制事件中基因家族的复制分别在圆形和方形图标里标出。共线性证据(synteny evidence)用虚线圈出。左上方的示意图表示了在白垩纪-古新世的环境压力。为了确定大量的复制来自于全基因组复制事件,染色体上的复制基因里的串联重复(tandem duplications)必须首先被移除,串联重复可能来自于祖先小尺度上的复制。(方法)。此外,每个物种的共线性分析能够为本研究中发现的大部分重复提供支持。另外,由于两个连续的全基因组复制事件之间缺少分支物种,例如在小果野蕉中,一些重复项不好分类。于是便计算了每个同义位点的同义替换,来了解来自某些复制事件的幸存基因。综上,我们汇集了来自全基因组复制事件中所保留复制的基因家族。一次全基因组复制事件可以生成大量的复制基因,这些基因可以为进化提供大量的遗传材料。如果独立的全基因组复制事件可以帮助物种在环境变化中得以生存,同样功能的基因也可以在不同物种中被保留,在共同的环境选择压力下。在系统发育树中25个物种里选取了21个陆生植物,其中14种经历了多倍化高峰(3次多倍化高峰,120Ma,66Ma,<20ma< span="">),在大约120Ma被称为γ和τ事件使早期的双子叶植物和单子叶植物分化。第二次是我们所熟知的K-Pg boundary附近出现的大量的全基因组重复事件。最近的全基因组复制事件发生在小于20百万年,出现在大豆玉米等进化历史中。(A)韦恩图显示共享和特定基因家族在某个时期里多次全基因组复制事件发生后仍然存在的基因家族。数字代表了具有基因复制的基因家族数量。方括号里代表了全基因家族复制事件中具有复制的基因家族的数量。(B)在三次全基因组复制浪潮中,压力选择下的基因功能。我们发现在许多物种中,包含基因家族确实存在来自几个独立的全基因组复制事件的基因复制(图2A),并且这些基因看似都受到了环境选择的压力信号。66个基因家族共同包含了基因复制在所提到的三个高峰期期间(补充图2),包含了蛋白激酶、转运蛋白和蛋白结合基因家族(补充表3)。320个基因家族保留了最古老的全基因组复制事件(γ和τ)而来的重复序列,它们丰富了响应缺水和盐胁迫的相关基因。(图2B),这可能跟120Ma的干旱气候有关系。第二轮的全基因组复制事件的高峰期位于K-Pg boundary附近,当时几个极端气候条件出现,包括全球变冷、黑暗、酸雨和大火。493个基因在至少6次全基因组复制事件中重叠(图2A),丰富了压力-联系下的基因,包括了冷热胁迫、渗透压维持、盐胁迫、水分获取和创伤修复(图2B),以及与压力响应相关的其他生物过程(例如脱落酸abscisic信号通路、细胞对磷酸盐的饥饿响应、防御反应、和karrikin响应补充图3).我们同时也去看了K-Pg boundary附近的没有发生古多倍化的5个谱系,发现有12个基因家族有小尺度的基因家族复制事件(补充图4)而且这些基因家族仅编码了在植物代谢过程中用到的酶和转运蛋白,这些编码区域不能直接反应对环境的适应性(补充表4)。最近的全基因组复制事件的高峰期发生在20Ma以内,并且仍然复制了844个基因家族(图2A),这个过程中保留下来的基因家族成员,与抗高盐、寒冷、水分获取、以及创伤修复。这些可能与当时记载的地球低二氧化碳浓度以及气温下降相关。通过GO注释或许不仅可以部分解决环境的改变,也能暗示不同谱系下的其他环境选择。转录因子基因家族在全基因组复制事件后具有偏向性保留TF(行)根据其保留值进行聚类,而WGD(列)根据其发生时间进行分组。热图顶部的基因家族是继WGD之后的高保留家族,而热图底部的基因家族是低保留的家族。左上方的彩色键表示TF的保留值。热图的每个单元格中的数字表示相应的WGD之后每个TF的保留值。热力图单元格后面的转录因子基因家族名称后边括号里的数字指的是在orthogroup中属于转录因子基因家族的基因数量。转录因子扮演着控制在基因规律性的转录的作用,比如生长、发育和胁迫回应。之前的研究也表明在全基因组复制事件之后,转录因子是广泛过度保留的基因。本文在解释全基因组复制事件后转座因子复制基因的保留模式时利用保留值(retention value 即R value)来评估。通常主要的转录因子在全基因组复制事件后趋于被保留,数据结果也在前人的文献中有报导。但是,本文发现不是所有的转录因子基因家族都被过度保留,而是在不同的转录因子基因家族中保留特定的保留偏好(图3)。例如高保留的基因家族包括(ARF, C2H2, C3H, CO-like, ERF, G2-like, GRAS, HD-ZIP, HSF, LBD, MYB, NAC, Trihelix, WRKY, bHLH, and bZIP)基因家族,而且趋于在多次全基因组复制事件后多次保留复制,且在不同的谱系当中(图3)。基于前人报导,许多高保留的转录因子基因家族基因在不同的发育阶段响应生物和非生物胁迫。大部分低保留的转录因子基因家族功能与保守的生物过程有关。例如,LFγ控制的生长发育开关和LAD1控制细胞程序性死亡的通路。那些在特定的全基因组复制事件浪潮中复制的转录因子基因,被认为是促进物种在环境改变下而具有的特殊遗传特性。协同保留的转录因子基因在120Ma时主要参与了植物的生长、发育、形态发生和胁迫响应(补充表5)。例如,被保留的基因复制基因和他们的功能分化在4个直系同源的MADS-box基因家族在核心真双子叶植物和单子叶植物。两个热胁迫相关的转录因子的直系同源基因在响应热胁迫是扮演着重要作用。然而,在K-Pg boundary附近的共保留的转录因子主要参与多种非生物胁迫(补充表6)。C2H2、ERF、RAV家族的直系同源基因参与了低温响应,HD-ZIP基因家族的直系同源基因参与了庇荫综合征(shade-avoidance syndrome)和dehydration stress response脱水应激反应。直系同源基因WRKY基因家族对于响应低磷酸盐胁迫相关(补充表6)。由于全基因组复制事件可能可以给基因调控网络重新布线(rewire),因此本文去探索了WGD在适应K-Pg boundary附近环境变化重塑了哪些基因调控网络。在整体的灭绝期间,全球范围内的低温是主要的环境压力。其中C-repeat/DREB结合因子通路(即CBF通路)是目前文献报导的已知的主要调节冷信号的通路。目前这种信号通路在拟南芥中被研究。CBF基因,作为响应这个通路的关键基因,主要被上游的ICE和CAMTA转录因子调节,并且能够在冷胁迫下触发许多寒冷响应基因(COR响应基因)的表达。通过追踪CBF途径中关键基因家族的进化历史,我们发现CBF,ICE,CAMTA和其他相关家族(SIZ,EIN等)在许多不同谱系中均呈重复状态(图4A)。在拟南芥中ICE1-ICE2基因在β全基因组复制事件中被复制(图4B、C)。ice1丢失功能的突变体对耐寒胁迫变得敏感,这就导致相比野生型在存活率上减少。过表达的ICE2从植物的基因改造上极大的增强了植物的冷适应。在水稻中,CBF基因作为一个多拷贝被保留在ρ全基因组复制事件之后,这个基因也在冷胁迫上扮演着重要角色(补充图5).因此,在不同的谱系中,仍然被保留在K-Pg boundary发生的全基因组复制事件中的复制基因,极大的增多了拷贝数量,并且出现了复杂的CBF-独立信号网络功能在核心真双子叶植物和单子叶植物的寒冷耐受性上(图4B)。图4 冷响应关键基因的调节模式在K-Pg时期的全基因组复制事件之后(A)在K-Pg边界处的8个WGD后,被子植物CBF依赖性信号通路中,已知的重要基因家族的重复保留状态情况。ICE,CAMTA和CBF是关键的转录因子基因家族,而SIZ,OST,EIN和FRY是其他与CBF依赖性信号通路有关的相关基因家族。“ x”表示没有保留,实心点表示基因保留。(B)拟南芥中WGD后CBF依赖性信号传导途径的扩增和重塑插图。ICE1和ICE2从βWGD复制。CBF1,CBF2和CBF3是通过串联重复生成的。(C)ICE基因家族的系统发育显示其进化史上的重复。实心圆圈表示重复发生在不同时期。具有ICE基因的共线性模块位于系统发生树的右侧本文还对某些谱系的多倍化事件后的CBF通路成员网络进行了比较。共表达基因已经广泛被用于鉴定基因功能。为了研究拟南芥谱系中的网络进化,葡萄是理想材料,因为在发生γ事件后经历了额外的全基因组复制事件。我们分别使用162个拟南芥和60个葡萄RNA-seq数据构建了冷特异性共表达网络(见方法)。对于从β WGD中复制而来的ICE基因,我们解释拟南芥中的AthICE1 and AthICE2共表达网络,以及在葡萄中的直系同源基因VviICE。(图5).大多数在VviICE上共表达的基因,在AthICE1 and AthICE2的直系同源基因上也被聚到一起。并且在拟南芥中共同响应的基因可能被分为三类:仅与AthICE1共表达、仅与AthICE2共表达、既与AthICE1共表达也与AthICE2共表达(图5),暗示在WGD后,复制的ICE基因子功能化。另外,相比葡萄VviICE,拟南芥在α、βWGD后,复制的AthICE1 and AthICE2招募了更多额外的基因,有助于增强对寒冷的耐受性。图5 拟南芥中复制的ICE1和ICE2基因与马铃薯中直系同源基因ICE共表达网络比较。ICE1和ICE2基因通过β WGD产生,红色波浪线表示直系同源匹配,也就是它们能够聚集在一个直系同源组中。绿色的虚线表示二者正调控共表达关系。红色四个在拟南芥中之前报导过的与耐寒相关的基因黑暗(或暗光)是物种在大灭绝过程中遇到的另一个主要环境压力,这是由于大气尘埃长时间反射了阳光。我们调查了植物避光途径中的关键成分,并且还发现在WGDs中,多个谱系里复制了几个关键基因。图6A。在拟南芥中,HD-ZIP II基因家族中的ATHB2和HAT1都来自βWGD(图6B和6C),它们在避开荫凉区响应中起作用。分子遗传学分析显示ATHB2可以迅速感应低红光:与野生型相比,远红光在拟南芥上和athb2功能丧失的突变体都显示出下胚轴伸长并且避阴能力大大降低。以拟南芥为例,图6B为从之前的WGD到后来的WGD调控网络的推定模型。尽管预测的祖先网络有些不确定,但我们的证据还是相对明显的,我们证明了全基因组复制事件后,避开遮阴的地方这一功能得以扩展。这样可以增强对光信号的感知,并更好地适应弱光环境。Figure 6. The Retention Pattern of Key Genes in Shade Avoidance Pathway after WGDs around the K-Pg Boundary为了测试植物适应性与全基因组复制事件之间的联系,我们比较了三波全基因组复制事件中冷胁迫和黑暗胁迫的特定保留模式,在后两次的WGD浪潮中,由于全球气温降低,所以冷胁迫基因被保留时具有高选择性。全球的黑暗环境仅在K-Pg期间被报导。Shade avoidance 通路在K-Pg附近的保留比另外两个WGD 保留高出很多(补充图6).另外,我们研究了另一种耐受途径(Na+ tolerance),尽管这个钠离子耐受途径没有成为K-Pg附近的主要途径。盐过度敏感(SOS)信号传导途径具有一定的功能性,在高钠离子耐受性下可以维持离子的稳态。补充图7A。SOS途径的核心成员(例如SOS3,ScaBP8,SOS2和SOS1)的重复有偏差地保留。补充图6和7B.因此,与胁迫相关的基因调控网络中 的基因在全基因复制事件中被有偏向性的保留,说明这是一个很有利的证据,即全基因组复制事件提高了植物在应对全球环境改变时的适应性。为了建立古多倍化遗传促进与适应性进化之间的联系,需要标记被子植物大多全基因组复制事件。多倍化在自然界中很常见。然而新生的多倍化个体往往会遇到各种内在的或者外在的障碍,包括染色体分离错误发生率的增加,有效种群的减少,以及与祖先二倍体竞争等。多项研究表明多倍体通常是进化的死角。最近行程的多倍体必须找到与之相应的二倍体不同的某些生态位才能生存。多倍体植物可以迁移到一个新的没有其二倍体祖先竞争的但充满选择压力的环境,或者经过强大的环境选择后将二倍体祖先替换成多倍体,从而生存下来。因此,被子植物的古多倍化事件与全球环境变化同时发生,可能在多倍体建立过程中发挥了重要作用。由于反复发生和大量的基因损失,剩余的古多倍化信息变得复杂和模糊。另外环境选择压力通常不会持续前年之久。环境条件改变后,全基因组复制带来的遗传贡献可能就消失了。此外,杂交和重组还可以去除关键的遗传信息,这些信息可以帮助物种在特定时期内经受严峻的环境变化。因此在被子植物的多倍化研究中存在很大的挑战。最后,我们调查了在同一时期发生的几个独立的WGD,以寻找共享的重复基因。