高分GWAS文章解析
摘要:
木豆(Cajanus cajan)是一种低摄入需求的热带谷类豆科植物,在亚洲,非洲和热带美洲发展中国家提供食物和营养安全方面有重要作用。292份木豆材料进行全基因组重测序,我们得到了全基因组变异。通过选择消除分析,我们发现与驯化和育种有关的基因组区域。使用全基因组关联分析,我们确定农艺重要性状相关的几个候选基因。在木豆中这些性状的候选基因与其他植物中开花时间控制,种子发育和荚开裂基因具有序列相似性。这个发现将会加速关键性状的遗传改良,以提高木豆的产量和可持续性。
Whole-genome resequencing of 292 pigeonpea accessions identifies genomic regions associated with domestication and agronomic traits
2017.7 Nature genetics
研究材料:292个品系,包括117个育种品系、166个地方品种2个其他品种和3个野生种中的7个品系。
测序策略: PE建库,Hiseq2500测序,测序平均深度5-12X
结果:
1.木豆材料的重测序和变异类型
对292份材料(图1a)重测序,用BWA与木豆的参考基因组‘Asha’ (ICPL87119)进行比对,基因组的覆盖率达到了93%,比对找到了1730万的变异,包括1510万的SNP,90万小的插入和120万小的缺失(图2),木豆的非同义-同义替换率在1.18,在拟南芥(0.83)和大豆(1.61)的中间。
图1.292个木豆材料的多样性a.292个材料的地理分布b.PCA分析c.系统进化树分析
图2.代表292个木豆材料变异的circos图
为了确认在驯化中受选择影响的基因组区域,我们对全基因组用10kb窗口分别在育种品种、地方品种和野生物种的重测序数据进行扫描,这些群组反映了物种进化的不同阶段,在这三个群组中很多的区域表现为中性选择(Ka/Ks = 1),纯化选择 (Ka/Ks < 1) 和正向选择(Ka/Ks > 1)。栽培木豆中全基因组水平的Ka/Ks和野生种中的进行比较发现栽培木豆中积累了大量的有害突变。
SNPs在育种品种、栽培品种和野生品种中的比例分别是17.9%, 36.1% and 69.8%。这三个群组共享了70万的SNP,在栽培和育种品种中有更多的SNP是共有的,与栽培品种和育种品种关系更近的结论是一致的。在SNPs的基础上成对的全基因组固定系数FST的值也得出了相似的结论。
对长度大于1000bp的SV变异(表1)也进行了分析,为了确认SVs在主要的进化过渡中是怎么改变的,对来自相同亚群的个体分别进行混池测序,育种品种、栽培品种和野生品种的深度依次是1,036×、1,523× 、75×。在育种品种、栽培品种和野生品种中分别有282, 228 和 173 个CNVs ,35、37 和 77个 PAVs 。我们注意到尽管野生物种可能对应于数量最多的变异,我们在野生物种中检测SVs的能力有限,因为野生物种的样品少,测序覆盖度低、没有野生物种的参考基因组,所以在野生物种中SV可能被低估,但识别出的SV对于理解变异水平是有用的。
表1.全基因组变异的总结
系统发育关系
主成分分析(PCA)反映了栽培种质(包括育种品种和地方品种)有限的遗传多样性和野生种质中多样化的分布(图1b)。使用相邻连接法的进化树分析也确定了两个不同的群组(图1c)。 图1c中显示两个主要群体中,第一组包含六个野生物种材料,第二组包括剩余的地方品种,所有的育种品种和一个来自C. cajanifolius的野生种(ICP15629)。 这些结果表明C. cajanifolius为与栽培木豆最接近的野生物种,最可能是祖先物种。用STRUCTURE进一步分析,发现大量的材料显示了混合性,显示了木豆的育种品种和地方品种的基因混合的普遍性。
为了评估地理分布并验证起源中心,用F统计计算群体中遗传距离。地方品种和野生物种的按其大陆,国家和起源地进行分类。在大陆的范围内,当起源中心被认为是南亚时,两两结合FST值与群体间的地理距离相关。来自南亚和撒哈拉以南非洲的FST值(0.102)比例最低。这些FST值表明木豆的起源路线来自于南亚到撒哈拉以南非洲地区,最后到南美洲和中美洲。
当FST值根据印度的国家来计算,数据表明印度中部中央邦可能是木豆起源地的中心。计算不同国家和中央邦的成对FST值,FST最高值为南印度泰米尔纳德邦的0.060,这并不奇怪,因为这对应到地理上最遥远的群体。在短距离内检测到的FST值仍然很高。
驯化和育种对遗传多样性的影响
在驯化和育种中受选择的基因位点在基因组中的变异很低。为了推断驯化和育种的影响,我们通过两种方式进行比较,即比较野生物种和地方品种,并比较地方品种和育种品种。为了检测由驯化和育种导致的选择消除,我们计算了多样性的减少(ROD),用10kb的窗口扫描全基因组。从野生物种和地方品种的比较与地方品种和育种品种的比较中共找到了2945个和1323个基因组区域,被确定为有更高ROD值。地方品种和育种品种多样性的减少可能是在驯化和育种期间进行了选择性消除。为了评估SVs在驯化和育种中的作用,我们在ROD区域检测CNV和PAV,检测到69个可能选择的SV(68个CNV和1个PAV)作为目标区域。
农艺性状的全基因组关联分析
使用栽培木豆446,568个高质量的SNPs分析全基因组连锁不平衡(LD)衰减率,平均为70kb。不同的伪分子(CcLGs)中LD是不同的。用286份材料的重测序数据对2012-2013年和2013-2014年收集的8个农艺性状数据进行表型分析,使用SUPER GWAS的方法估计标记-性状关联(MTA)。当P <0.05时共鉴定出241个MTAs。在第1年(2012-2013)检测到53个,在第2年(2013-2014)检测到90个,其余98个在合并的数据被检测到。
据观察,在某一年确定的许多MTA与另一年的MAF之间关联较弱或没有关联(图3)。至少四种性状,即50%开花天数,株高,每株植物初级分枝数和二级分枝数的数量,对温度和光周期长度高度敏感。GWAS分析显示许多数量性状位点和木豆对环境的适应性有关。
图3.百粒重、50%开花时间、株高显著的MAFs.
总之,木豆的基因组数据的分析和农艺相关性状的MTA对加速木豆遗传改良提供宝贵的资源。
点击以下「关键词」,查看往期内容:
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史
生信人-2018