今天凌晨,罂粟基因组正式发表在science杂志上。
小编看到其他公号转发的时候,还在公交车上。
等小编到了公司,下载下来文献看下,发现正文中只有3页左右。
这个基因组主要做的工作总结起来也很简单,组装了一个高质量的基因组,进行了比较基因组学分析,结合转录组分析,研究了吗啡合成的通路。
8月31日,西安交通大学叶凯青年科学家工作室团队、英国约克大学伊恩·格拉汉姆院士团队、英国惠康基金桑格研究所宁泽民研究员合作的学术论文“The opium poppy genome and morphinan production”,发表在最新一期的《科学》杂志,在国际上首次公布鸦片罂粟的高质量全基因组序列,揭示其进化历史上主要加倍和重排事件,阐明吗啡类生物碱、合成基因簇的进化历史,为进一步开发鸦片罂粟药用价值和揭示罂粟科乃至早期双子叶植物进化历史奠定了重要基础。------交大官网
正文中的三部分内容如下
第一部分主要是对基因的组装和注释结果进行了展示。
可以看到基因组Contig 组装了2.71Gb,Scaffold 组装了2.72Gb。ContigN50为1.77Mb,Scaffold N50为204.5Mb。基因组中重复序列占比达70.9%。进行基因预测,得到编码基因51213个,有同源或者RNA-seq支持的达到100%。
第二张图是对基因组整体特征的描述,同时对于比较基因组学部分,选择压力部分进行了相应分析的展示。
第三张图主要是对吗啡代谢通路进行了相应的研究。
在此,我们就不对这结果部分进行阐述。
其实从这三种结果图中很难看到生信人背后付出的努力。
除了这三张图之外,还有一个50多页的补充材料。
这50多页的补充材料,却是扎扎实实的记录了解密罂粟基因组背后的种种。
大家都知道在做基因组之前,要对基因组进行一个简单的了解,也就是做一个调研图。
罂粟基因组重复序列很多,高达70%,并且其中大多为LTR重复,在调研图分析的时候,
Kmer选择都很成问题。
一般情况下, kmer选择19,21,23,就够用了。
本文选择了61,这里肯定是参考了基因组的相关的特性,这里还是很见功夫的。
对基因组进行调研之后,接下来就是组装了
组装也并没有正文说的那么轻松。
文章用到了二代测序,三代测序,nanopore测序,,10x genomic,BAC等技术,组装过程中还利用了NR gene公司的软件。可以说基本上所有的组装方式,都尝试了。
文章采用了两种组装方式并行,然后合并这两个结果的方式,最后还对组装结果进行QC。
具体组装流程见下图。
组装之后,进行纠错,也花费了很多时间,这里就不展开说了。大家感兴趣可以看补充材料。
基因组组装情况统计图,其中81.6%的序列挂在到了染色体水平上。
然后文章在注释部分还利用了BUSCO对准确性进行了评估。
如此超级大的复杂基因组,重复序列部分占比统计
对于复制和染色体重排部分的分析,小编个人认为还是基于一个准确性的基因组的基础上才会准确很多,可以说之前基因组组装部分应该占到了该项目较大部分的时间。
转录组部分不仅仅用于辅助基因预测,还做了共表达分析。
一篇好的基因组文章,肯定还是要落在具体的科学问题上。
但是背后技术人员的辛苦努力,也值得认可和赞赏。
致敬补充材料中的生信人。
有生信分析请留言
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史