想必大家都对傅园慧比较了解了,一个真诚,没有套路的女孩子。
0、开始正文
四月份核酸研究发表了一篇文章:Redundans: an assembly pipeline for highly
heterozygous genomes
主要是讲解如何处理高杂和基因组组装的问题。
小编看完之后深深的感慨:通篇没有什么高深的算法,没有什么牛逼的数学公式,都没有开发一个软件,就是利用别人的软件稍微包装下,就发表啦。不过不能不佩服的是有心。真正的将大家平时遇到的问题,解决了,并且提供了一套流程。
宝宝今天最大的收获,就是还是要从解决核心的小事做起啊。
1、摘要
大家都知道基因组项目最重要的有三点:组装、注释、比较基因组学。其中组装在各个公司都吹嘘N50的今天,更是重中之重。
其中组装中有一个最大的问题,就是高杂和基因组如何组装。
目前的组装软件Allpaths-lg(算法都在名字里,找到所有路径,然后local组装,然后glocal组装),soapdenove等对小片段的组装方法都是借助图论的方法,但是对于杂和的位置,就会有两条路径(画图太丑,自己脑补吧),如果杂和位点多,就是一个排列组合问题啦。总之超级超级多。
导致的后果呢,也是很明显比估计的基因组大很多,而且序列多为片段,组装不起来(因为组合的情况太多,时间复杂性和空间复杂性都太高),咋办?
(通常都是各种看不懂的模型,各种看不懂的算法,各种看不懂的公式)
2、方法
首先跟大家说下二代组装一般流程是这样的:先用组装软件组装,然后利用SSPACE进行进一步的链接,然后利用Gapcloser进行补洞。
这篇文章中流程的设计如下:
我跟大家说下Redundans的核心思想,大家不要激动:
(0)先组装一版
(1)reduction :杂和的片段太多,就去掉一部分。
(2)Scaffolding:继续链接
(3)Gap closing :补洞
太小清新了有没有
示意图:A为没有杂和的组装,B为有然后处理之后的组装。
流程示意图:就多了一步REDUCTION
大家肯定问了:肯定是Reduction部分有洪荒之力。
然后我给大家介绍下Reduction 部分:
we cluster contigs with at least 85% identity
and overlapping over 66% of the shorter sequence length
from each pair-wise comparison. Only the longest contig
representing each cluster is kept for further analysis. [软件使用blat和last]
让我简单的翻译下:我们啥的没做,就是将contig进行互相的比对,然后对contig进行聚类,选择最长的做后面的分析。
就是很简单的思路,但是是很用心的点。(是不是很鸡汤)
3、效果
减少杂和能否提升基因组组装水平呢。如下图
可以看出杂和的减少和基因组组装差异(实际-真实)负相关,说明降低杂和很有用啊。
真实项目的测试效果。
和其他软件比较
4、讨论
虽然软件还是有些问题,但是对于大家目前没有经费弄三代来说,也是可以试试这个方法的。
具体的文章。点击阅读原文获取。
Ps:以后生信的软件会不会越来越少一些套路,多一点真诚。
欢迎关注生信人