知识中心 - 北京概普生物科技有限公司(GapTech)

一款很“傅园慧”的杂和基因组组装软件

生信干货 sxr ·2016年8月10日 07:17

想必大家都对傅园慧比较了解了，一个真诚，没有套路的女孩子。

0、开始正文

四月份核酸研究发表了一篇文章：Redundans: an assembly pipeline for highly

heterozygous genomes

主要是讲解如何处理高杂和基因组组装的问题。

小编看完之后深深的感慨：通篇没有什么高深的算法，没有什么牛逼的数学公式，都没有开发一个软件，就是利用别人的软件稍微包装下，就发表啦。不过不能不佩服的是有心。真正的将大家平时遇到的问题，解决了，并且提供了一套流程。

宝宝今天最大的收获，就是还是要从解决核心的小事做起啊。

1、摘要

大家都知道基因组项目最重要的有三点：组装、注释、比较基因组学。其中组装在各个公司都吹嘘N50的今天，更是重中之重。

其中组装中有一个最大的问题，就是高杂和基因组如何组装。

目前的组装软件Allpaths-lg（算法都在名字里，找到所有路径，然后local组装，然后glocal组装），soapdenove等对小片段的组装方法都是借助图论的方法，但是对于杂和的位置，就会有两条路径（画图太丑，自己脑补吧），如果杂和位点多，就是一个排列组合问题啦。总之超级超级多。

导致的后果呢，也是很明显比估计的基因组大很多，而且序列多为片段，组装不起来(因为组合的情况太多，时间复杂性和空间复杂性都太高)，咋办？

（通常都是各种看不懂的模型，各种看不懂的算法，各种看不懂的公式）

2、方法

首先跟大家说下二代组装一般流程是这样的：先用组装软件组装，然后利用SSPACE进行进一步的链接，然后利用Gapcloser进行补洞。

这篇文章中流程的设计如下：

我跟大家说下Redundans的核心思想，大家不要激动：

（0）先组装一版

（1）reduction ：杂和的片段太多，就去掉一部分。

（2）Scaffolding：继续链接

（3）Gap closing ：补洞

太小清新了有没有

示意图：A为没有杂和的组装，B为有然后处理之后的组装。

流程示意图：就多了一步REDUCTION

大家肯定问了：肯定是Reduction部分有洪荒之力。

然后我给大家介绍下Reduction 部分：

we cluster contigs with at least 85% identity

and overlapping over 66% of the shorter sequence length

from each pair-wise comparison. Only the longest contig

representing each cluster is kept for further analysis. [软件使用blat和last]

让我简单的翻译下：我们啥的没做，就是将contig进行互相的比对，然后对contig进行聚类，选择最长的做后面的分析。

就是很简单的思路，但是是很用心的点。（是不是很鸡汤）

3、效果

减少杂和能否提升基因组组装水平呢。如下图

可以看出杂和的减少和基因组组装差异（实际-真实）负相关，说明降低杂和很有用啊。

真实项目的测试效果。

和其他软件比较

4、讨论

虽然软件还是有些问题，但是对于大家目前没有经费弄三代来说，也是可以试试这个方法的。

具体的文章。点击阅读原文获取。

Ps：以后生信的软件会不会越来越少一些套路，多一点真诚。

欢迎关注生信人