广告:大家有基因组家族分析的需求,麻烦留言哦,小编会第一时间回复的。
今天是基因家族分析类文章最后的一部分,也是一个文章亮点所在的部分,小伙伴们仔细阅读学习吧!
一、转录组及芯片原始数据下载网站
1、 GEO datesets/profile(http://www.ncbi.nlm.nih.gov/gds ).。
用法见下图。GEO数据ID命名规则:GPL->GSE->GSM.
GPL: platform
GSE: multiple series.
GSM: multiple samples.
GDS ≈ GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.
The data in the sameGPL can be used to compare inexperiment.
下面是在线分析转录组数据的用法:
2、EBI ArrayExpress(http://www.ebi.ac.uk/arrayexpress/)
该数据库下载数据用法如下:
3、PLEXdb(http://www.plexdb.org/).
该数据库下载数据用法如下,注意用户名和密码!
4、SRA db(http://www.ncbi.nlm.nih.gov/sra/)
5、DRA db(http://trace.ddbj.nig.ac.jp/DRASearch/)
二、数据处理
拿到原始数据,要进行处理,才能进行后续数据分析。
1、芯片数据。原始数据格式“.cel”格式。以AffyMicroarray数据处理为例讲述主要的命令如下:
> library(affy);
>library(makecdfenv);
>library……
> barleyGenome = make.cdf.env(“barleyGenome.cdf")
>mydata <- ReadAffy() ##choose “.cel “ file analyzed.
>eset <- rma(mydata);
>write.exprs(eset,file="mydata.txt")
>design <- model.matrix(~-1+factor(c(1,1,2,2,3,3))) # Createsappropriate design matrix.
>colnames(design) <-c("group1", "group2", "group3") # Assigns column names.
>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series of arrays.
>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.
>fit2 <- contrasts.fit(fit, contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.
>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expression by empirical Bayes
>topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-values ('sort.by=B') for firstcomparison group.
>write.table(topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=500),file="limma_complete.xls", row.names=F, sep="\t") # Exports complete limma statistics table forfirst comparison group.
>results <- decideTests(fit2,p.value=0.05); vennDiagram(results)
2、转录组数据处理。原始数据格式为sra或fastq格式。Sra可以转换为fastq然后运用下面的命令进行处理。
1)获得cleandata;
fastx_clipper :clip adapter.
fastq_quality_filter: base quality control.
fastq_quality_trimmer: trim 5’ low quality bases.
2)计算RPKM.
bowtie2-buildpath/db.seq path/db
tophat db read.fastq
bam_filter path/accepted_hits.bam
samtools view -h -o output-uniq.sam output_uniq.bam
excel for calculation(low frequencyreads ≤5 were omitted ).
3)差异表达的基因。
寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。
a.倍数法。对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因
b.CV值。计算某个成员在不同处理下的基因表达变化。CV =SD/mean.Used in differenttissues or organs anlysis.
结束了。整个家族分析套路。如有需求,可以留言,帮你快速拿SCI。
关注公众号输入“基因家族”可以看往期