今天推荐一个工具ExpressionPlot 这个工具是一个基于网页版的分析转录组和芯片数据的工具。简单说就是后台是常规的分析和可视化工具,但是前端页面较为友好。比较适合初学者利用这个工具进行表达数据的处理和可视化。
摘要
RNA-seq和芯片数据处理的平台现在对于基因表达数据的挖掘越来越重要。文章推荐一个ExpressionPlot,这是一个软件包,可以安装在web服务器上,也可以安装在虚拟机上。这个软件包有一个较为友好的界面,可以方便客户用于游览、可视化、对不同的数据集进行比对。软件包支持多种数据包括原始fq数据、芯片数据还有其他平台处理的数据等等。
软件和使用手册下载地址:
背景介绍
随着技术的发展,芯片数据和转录组数据越来越多,但是对于有用的准确性信息的获取,仍然是令人畏惧的一件事情。对于深入的数据挖掘、可视化和人性化的页面和体验越来越重要。所以挖掘平台的重要性逐渐凸显。目前类似的一些平台诸如Galaxy、GenePattern等。
这次文章推荐一个ExpressionPlot这个工具,它包含一系列的工具和流程,主要是比对工具、统计工具,还有一些用户的个性化工具用来实现深入分析和研究,包括浏览、简单过滤和统计、可视化等等。这个工具相比其他平台在于提供了便捷的一键式的过滤、排序和超链接到其他网页,还有支持同一次试验的不同样品,还有不同平台数据的相互比较等。
软件支持的输入数据格式包括fastq、cel、bam等文件,或者其他平台产生的表达谱文件等。
这个也可以产生bam文件,或者BigWig用于其他平台的使用。本软件不需要集群服务器,只需要有一个支持bowtie建库搜索的内存就可以,一般内存在4Gb左右就可以啦。硬盘空间要足够大点。另外软件对于项目中的数据支持用户对数据进行用户权限分配,是可读、可写还是共享等。这样对数据的分享和保护起到了重要的作用。
基因表达分析
基因表达分析主要分为两种数据类型,转录组fq数据还有就是芯片数据。
对于转录组数据其预流程主要在后台利用命令行操作,其主要步骤包括:
1, alignment;
2, read accumulation;
3, statistical calculations.
芯片数据处理和流程包括:
1, background subtraction;
2, probe normalization;
3, probe accumulation;
4, statistical calculations.
欣赏下软件的主页面。
预处理之后,要对数据质量进行简答的评估,也就是质量控制。
ExpressionPlot提供了好几种质控的工具。主要是根据比对的read进行区分,比如没有比对上的、多重比对的、双端比对上的、单端比对上的等等。这里用户可以选择利用read_type工具进行处理。
质控之后,可以利用table_browser工具进行过滤和选择并且对不同的选择进行相应的可视化展示。
当然软件对于不同平台和不同物种(双跨)的数据也可以利用4way方法进行可视化展示,主要用于对数据进行横向和纵向的展示,这对于物种研究还是很有意义的。
如果用户相对某一个基因进行重点的研究,还可以对某一个区域进行重点的显示,主要利用的工具是seqview tool。
文章中的大栗子。
软件如何安装和使用,大家还是阅读原文去官网吧。小编感觉这个工具很好用,估计安装对于新手还是挺难的,看看以后有没有机会开发点工具帮助大家安装和使用。
欢迎关注生信人