最近有一篇转录组新的“组装”算法,小编简单解读下:
A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes
一、摘要
很多情况下,转录本组装是没有基因组可供参考的,或者参考基因组质量不高。无参组装效果不好的原因主要是转录本存在大量的片段和测序错误,这样会导致大量的错误。
文章作者开发了inGAP-CDG,一款可以利用没有组装的转录组数据预测全长没有冗余信息的CDS编码区。
他的方法主要是利用基于密码子的 de Bruijn graph组装,并利用机器学习的方法进行假阳性的过滤。
二、背景介绍
基因预测是基因组研究中最最重要的部分,因为这一部分涉及到基因功能,如果跟功能相关的组件都搞不清楚,后面工作压根无法开展。
随着测序技术的发展,转录本数据也可以用来进行构建系统发育树,而构建系统发育树(无参),研究进化,需要提取直系同源基因,也就是依赖于转录本中编码区的预测。目前的软件对于编码区的预测结果较差,而且十分依赖于转录本组装效果和长度。对于组装不完整的,或者存在测序错误的预测效果很渣,会导致很多有用基因被丢失掉。更要命的是,真核生物的基因还往往有多个可变剪切,这些会导致在进化树种出现单系群或类群的支。举例,Trinity软件作为广泛使用的转录组组装软件,对同一个基因位置往往有多个组装结果。
对于有参考基因组的物种,功能基因的识别往往借助于同源预测的手段,也就是通过和近缘物种比对来识别基因(genewise、genblastA、geneMoMa),但是已测序的物种毕竟仍是少数,过度依赖于参考基因组,无法预测出新的基因。没有同源的时候,利用从头预测结果由依赖于训练集,而训练集不好,或者没有的情况下,从头预测的表现超级差,敏感性22.1%,特异性20%(某从头预测软件结果)。
同样从头预测软件也可以在转录本上进行基因预测,但是其更多的受到转录本组装质量、测序错误、重复序列、多个转录本有交叉区域等影响。
通常传统的转录本组装会得到大片段的、冗余的含有测序错误的一堆转录本信息。举例,RGASP表明目前只有48%的转录本是高度可信的。
也就是说从转录本中提取的直系同源基因通常都是片段、冗余、含有大量的组装错误和测序错误。
为了克服这种困难,提升转录本的准确性。文章作者开发了inGAP-CDG算法,一套可以从没有组装的转录本中构建基因结构。和之前的方法相比,inGAP-CDG算法可以从reads直接进行orf预测,并通过有监督的SVM算法过滤掉假阳性的orf,并通过基于cds的
de Bruijn graph将准确的orf组装成完整的cds。
通过模拟数据和真实项目数据测试,证明这个软件确实能够提升基因识别的长度和准确性。
三、技术路线
四、结果
传统组装的de Bruijn graph图和基于CDS的de Bruijn graph图的区别。基于cds的de Bruijn graph算法用于组装不仅仅减少了nodes和边,而且减少了拓扑复杂性。
五、支持向量机算法过滤假阳性的应用效果
为了评估SVM过滤的效果的好坏,我们利用人的第三条染色体、第九条染色体和第二十条染色体的数据模拟生成RNA-seq数据。
同时,为了验证SVM可以减少codon-based de Bruijn graph的复杂度,我们也利用了RNA-seq dataset (ERR188040)进行了验证。
通过验证,我们可以得到如下结论:SVM通过过滤假阳性的orf不仅能够减少codon-based de Bruijn graph的复杂性,而还能提升从片段化的seq中识别基因的准确性。
为了证明这个软件的鲁棒性,文章采用错误率有0.5%, 1%, and 2%的数据集(模拟生成),和11个其他的软件流程从平均长度、冗余度、敏感性和错误率进行比较。
inGAP-CDG achieved the longest mean length and the lowest redundancy among all of the approaches for all three simulated datasets.
同样为了证明这个软件的在不同read 长度上的鲁棒性,我们利用了三组不同长度的真实数据进行验证ERR188040, ERR1161592, and SRR1045067) of different
read lengths (75, 100, and 150 bp),结果证明inGAP-CDG表现非常抢眼。
六、Application of inGAP-CDG to orthologous gene recognition
我们利用inGAP-CDG软件来进行直系同源基因的寻找。我们比对了inGAP-CDG软件和传统的Trinity+TransDecoder分别对人和小鼠进行分析。结果如下
其中inGAP-CDG软件预测的蛋白长度较常规流程较长,并且能够得到更多的one to one 基因。并且运行时间和内存也是可以接受的。
七、吐槽
目前很多科研机构和公司在转录本寻找orf的时候经常利用的软件包括Transdecoder、orffinder、estscan等。这些软件效果都不是很好,今天推荐的这款软件从另外一个角度进行了分析,但是其效果好坏等着时间去验证。
小编个人认为转录本上的基因预测也可以利用基因组基因预测的那套东西从从头、同源、转录本结构三个角度进行研究然后利用EVM等软件整合,再用pasa修饰。这个估计效果会更好。
当然这样的效果还不够好,推荐一款收费软件bestorf,这个软件算法没有什么牛叉的地方,牛叉的地方在于他有大量的数据库进行模拟。也就是说他收集了大量的物种训练集,你提交一个物种,他很快的能够知道这个物种的特性,哪些参数比较合适,所以结果的准确性往往也是best的。
目前基因预测、orf预测等各种预测部分,物种已经有很多了,这些数据的利用率看来还是不够,真的如果能全部利用起来,预测就不成问题了。
欢迎关注生信人