SAM/BAM格式对于搞二、三代测序的朋友们想必是再熟悉不过了。简言之,前者是序列比对描述的文字版格式标准,而后者是对前者的二进制高度压缩格式。自诞生以来,SAM/BAM一直是业内泰山北斗般的格式标准。
然而最近,BAM却遇到了一个强有力的挑战者。
9月27日,来自位于瑞士洛桑GenomSys SA公司的Claudio Alberti和同事们在bioRxiv预印本(preprint)服务器上发布了一个被称为MPEG-G的基因组信息存储格式以作为BAM的替代者。
也许你会说:大惊小怪了吧?这些年不是有很多所谓的更好的genomic information representation的格式曾试图挑战BAM的江湖地位,甚至取而代之,最后大都不了了之。就算是其中最有影响力的CRAM(Fritz et al., 2011),似乎也没有掀起太大的波澜。
那么作为BAM的又一替代品,MPEG-G有什么特别之处呢?在原文的摘要里,作者们清晰地写到(Alberti et al., 2018):
It provides the means to implement leading-edge compression technology achieving more than 10x improvement over the BAM format
其实,作者们的雄心在文章的标题里早已昭然若揭:
An introduction to MPEG-G, the new ISO standard for genomic information representation
是的,就是这么牛X!
作者们声称,MPEG-G不仅拥有10倍于BAM 的压缩效率,而且还获得了国际标准化组织(ISO,全称International Organization for Standardization)的认证!
如果MPEG-G的压缩效率果真如此,那么就是说,加入一个以BAM格式存储的比对文件的大小是50G,你将它转换为MPEG-G的话,只需要占用:5G的空间!而且,还有ISO为其背书!
MPEG-G,是不是有点,太犀利了?
上一幅图,简单了解一下MPEG-G是如何工作的:
争议:
然而, MPEG-G却在该preprint在bioRxiv发出后立即引发了生物信息学界的巨大争议。
9月28日,也就是MPEG-G的文章在bioRxiv刊出的第二天,BAM的主要开发者李恒,在网上以On the MPEG-G alignment format为题发表博文迅速作出反应(Li, 2018)。
文中,李恒表示了对MPEG-G的以下几点严厉质疑:
1. 原文摘要里写到的MPEG-G相比BAM压缩效率10X以上,而原文Fig 3(见下),MPEG-G的压缩效率只有BAM的6.54X
2. 如上图a所示,橙色代表的sequence在MPEG-G中比绿色代表的quality压缩率更高。这是一种很奇怪的现象——尽管这种可能性并非完全没有——因为实际情况是,往往是quality更为难以被压缩,因为they don’t follow a clear pattern。
3. 原文没有提供任何implementation和data用以帮助大家进行benchmark来重复、验证原文所报道的内容
4. 虽然MPEG-G是开源的,但注意,这不代表它会是免费的。据称,MPEG-G的主要贡献者正在申请专利(其可能带来的后果请见下文)。
于是,综上所述,李恒建议大家对MPEG-G保持足够的警惕。李恒建议大家,在MPEG-G开发者做到以下两点之前:
1) open source the reference implementation and
2) make the format royalty-free
请继续使用BAM或CRAM!
如果说BAM的主要开发者李恒的博文还是比较温柔的话,那么作为BAM格式迄今为止最成功的替代者CRAM开发团队的主力成员James Bonfield就要直率得多。这位老哥在其博客(http://datageekdom.blogspot.com)里连发三篇博文对相关事件进行了评价,而且一篇比一篇强烈,这一点从三篇文章的题目里就可见一斑:
"ISO/IEC JTC 1/SC 29/WG 11"
MPEG-G: the bad
MPEG-G: the ugly
从早期参与MPEG-G的项目(I engaged with MPEG-G from the moment I heard about it …… I had hopes of a better format),到现今对其横眉冷对(I regret now that I helped make the format that little bit better. I am guilty of being hopelessly naive.)。Bonfield在这三篇博文里,道出了许多关于MPEG-G的不为人知的故事及其与整个bioinformatics community的恩恩怨怨。由于篇幅所限,我们这里暂且不谈,感兴趣的读者可以通过推送最后的引用查看原文。
Bonfield点出了自己对于MPEG-G的几点批评和担忧。
其一是,MPEG-G的行动缺乏透明性,尤其是,MPEG-G与ISO的搅在一起,这其中有很多东西旁人无法知晓的。
其二,作为一个试图取代BAM和CRAM的新兴数据格式,在这篇MPEG-G的预印本文章里,居然对MPEG-G和同类格式的比较十分吝啬,尤其是没有同CRAM进行比较。其实,很多业内人士或在文章的评论栏或在社交媒体中,不约而同地点出了这一严重疏漏。
其三,Bonfield表示目前对于MPEG-G是否会对使用者收取一定费用尚未得知。而一旦收费的话,势必在很大程度上提高生物信息学的研究成本:也许你会在第一次生成MPEG-G文件时就被要求提供信用卡号,也有可能是每次读写文件时你的支付宝里都会收到付款成功的提醒。
Bonfield的这三篇博文还有诸多对MPEG-G的评价,当然大多是负面的。据此,同李恒一样,Bonfield在文章里表明了自己反对使用MPEG-G的坚定立场:
看得出,李恒和Bonfield共同担忧的其中一个问题来自MPEG-G申请专利这一举动。对于这一点,很多生物学家也有着相同的看法,他们不愿看到一种为生物信息学领域广泛使用的序列压缩格式被作为专利申请。
回应:
当然,MPEG-G文章的作者们也不会充耳不闻。作为团队带头大哥的Claudio Alberti也在网上上做出了回应。他表示这篇bioRxiv上的文章就是为了让大家了解一下MPEG-G的,而非与BAM和CRAM进行比较,一些数据还在修改中。
支持
尽管反对者甚多,社交媒体上也出现不少支持的声音。他们的理由也很简单:高效就是好。这其中就包括广泛使用的差异表达基因鉴定软件Edger的作者、来自瑞士苏黎世大学(UZH)的Mark Robinson教授:
请注意,即使是一条推文,罗宾逊教授也是非常严谨,他显然是注意到了李恒提到的原文图3的6.54X和摘要里10X的矛盾之处,推文里只写5X——因为5X已足够震慑了。
展望
CRAM的主要作者Bonfield透露,尽管不太确定,但他认为MPEG-G的专利申请有望在未来半年内获批。届时,MEPG-G会不会收费?同BAM和CRAM的比较如何?又将对生物信息学界产生怎样的影响?让我们拭目以待。
引文
Alberti, C., Paridaens, T., Voges, J., Naro, D., Ahmad, J.J., Ravasi, M., Renzi, D., Zoia, G., Ochoa, I., Mattavelli, M., et al. (2018). An introduction to MPEG-G, the new ISO standard for genomic information representation. bioRxiv.
Fritz, M.H.Y., Leinonen, R., Cochrane, G., and Birney, E. (2011). Efficient storage of high throughput DNA sequencing data using reference-based compression. Genome Res 21:734-740.
Li, H. (2018). On the MPEG-G alignment format.
有生信分析请留言
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史