RNA-seq数据分析实用方法
鉴于目前RNA-seq应用的广泛性,小编着手将RNA-seq Data Analysis A Practical Approach这本书翻译成中文,供大家入门使用。同时小编也会融入最新的一些技术方法,供大家学习。另外有想加入小编翻译团队的请留言,小编拉你进群。
数学和计算生物学系列丛书
目标和范围:
本系列旨在整个数学、计算生物学和医学的范围内捕捉新的发展并总结我们已知的知识。通过发表广泛的教科书,参考书和手册,鼓励将数学,统计学和计算科学应用到生物学中。丛书中主要对象是数学,统计学,计算科学,基础生物学和生物工程研究以及跨学科领域相关的学生,研究人员和专业人士。包含具体的例子和应用程序,以及编程技术和例子是非常值得推荐的。
丛书编辑
N. F. Britton
数学科学系,巴斯大学
Xihong Lin
生物统计学系,哈佛大学
Hershel M. Safer
计算机科学学院,特拉维夫大学
Maria Victoria Schneider
欧洲生物信息研究所
Mona Singh
计算机科学系,普林斯顿大学
Anna Tramontano
物理系,罗马大学
目录
第1章 RNA-seq介绍 1
1.1引言 1
1.2 RNA的分离 3
1.3 RNA的质量控制 4
1.4 文库准备 6
1.5主要RNA-SEQ平台9
1.5.1 Illumina 9
1.5.2 SOLID 10
1.5.3 454 11
1.5.4 Ion Torrent 11
1.5.5 Pacific Biosciences
1.5.6 Nanopore Technologies13
1.6 RNA-SEQ应用14
1.6.1 蛋白质编码基因结构14
1.6.2 新的蛋白质编码基因16
1.6.3 基因表达定量和比较
1.6.4 表达数量性状位点(eQTL)17
1.6.5 单细胞RNA-seq 18
1.6.6 融合基因18
1.6.7 基因变异19
1.6.8 长链非编码RNA 19
1.6.9 小的非编码RNA(miRNA-seq)20
1.6.10 扩增产物测序(Ampli-seq)20
1.7 RNA-SEQ平台选择 21
1.7.1 RNAseq测序平台和模式选择的八个一般性原则 21
1.7.1.1 准确性:测序准确度如何? 21
1.7.1.2 Read:我需要多少? 22
1.7.1.3 长度:Read要多长? 23
1.7.1.4 SR或PE:单端测序还是双端测序? 23
1.7.1.5 RNA或DNA:测序RNA还是DNA? 23
1.7.1.6 材料:用多少样品? 24
1.7.1.7 成本:能花多少钱? 24
1.7.1.8 时间:需要多长时间完成? 24
1.7.2 小结 25
参考文献 25
第2章 RNA-seq数据分析介绍 27
2.1 引言
2.2 差异表达分析工作流程 30
2.2.1 步骤1:Read的质量控制 31
2.2.2 步骤2:Read的预处理 31
2.2.3 步骤3:将Read与参考基因组比对 31
2.2.4 步骤4:基因组引导的转录组组装 32
2.2.5 步骤5:计算表达量 32
2.2.6 步骤6:不同条件表达量比较 33
2.2.7 步骤7:在基因组中进行数据的可视化 33
2.3 下游分析 34
2.3.1 基因注释 34
2.3.2 基因组富集分析 34
2.4 自动化的工作流程 35
2.5 硬件要求 35
2.6 例子36
2.6.1 使用命令行工具和R 36
2.6.2 使用Chipster软件 37
2.6.3 示例数据集 39
2.7 总结 40
参考文献 40
第3章 质量控制和预处理 41
3.1 引言41
3.2 质量控制和预处理软件 42
3.2.1 FastQC 42
3.2.2 PRINSEQ 43
3.2.3 Trimmomatic 44
3.3 Read质量问题 44
3.3.1 基本质量 44
3.3.1.1 过滤 45
3.3.1.2 裁剪 49
3.3.2 不明确的碱基52
3.3.3 接头54
3.3.4 Read长度55
3.3.5 随机六聚体引物引起序列偏差和不匹配 56
3.3.6 GC含量 57
3.3.7 复制比例 57
3.3.8 序列污染59
3.3.9 低复杂度序列和PolyA尾巴 59
3.4 总计 60
参考文献 61
第4章 将Read与参考序列比对 63
4.1 引言 63
4.2 比对程序64
4.2.1 Bowtie 64
4.2.2 TopHat 68(HISAT)
4.2.3 STAR 73
4.3 比对结果统计和对比结果文件操作 77
4.4 在基因组环境中可视化测序Read 81
4.5 总结 82
参考文献 83
第5章 转录组组装 85
5.1 引言 85
5.2 方法 87
5.2.1 转录组装与基因组组装不同 87
5.2.2 转录本重建的复杂性 88
5.2.3 组装过程 89
5.2.4 de Bruijn Graph 90
5.2.5 丰度信息的使用91
5.3 数据预处理 92
5.3.1 Read错误纠正93
5.3.2 Seecer 93
5.4 基于mapping的组装95
5.4.1 Cufflinks 95
5.4.2 Scripture 97
5.5 从头组装 98
5.5.1 Velvet + Oases 98
5.5.2 Trinity 100
5.6 总结 104
参考文献106
第6章基于定量和注释的质量控制109
6.1 引言 109
6.2 基于注解的质量指标110
6.2.1 基于注释的质量控制工具111
6.3 基因表达定量116
6.3.1 计数每个基因的读数117
6.3.1.1 HTSeq 117
6.3.2 计数每个基因的Read 120
6.3.2.1 Cufflinks 122
6.3.2.2 eXpress 122
6.3.3 每个外显子Read计数126
6.4 总结 128
参考文献129
第7章 RNA-seq分析中的R和Bioconductor 131
7.1 引言 131
7.1.1 安装R和附加软件包
7.1.2 使用R 133
7.2 Bioconductor概述134
7.2.1 软件包
7.2.2 注释包134
7.2.3 实验包135
7.3 Bioconductor的特征 135
7.3.1 R中的OOP特性
7.4 在R 中表示基因和转录本138
7.5 R 中的基因组141
7.6 在R 中表示SNP143
7.7 制作新的注释包143
7.8 总结 146
参考文献146
第8章 差异表达分析147
8.1 引言147
8.2 技术VS.生物学重复148
8.3 RNA-SEQ测序数据的统计分布149
8.3.1 生物学重复,计数分布和软件选择150
8.4 标准化152
8.5 软件使用示例154
8.5.1 使用Cuffdiff154
8.5.2 使用Bioconductor包:DESeq,edgeR,limma 158
8.5.3 线性模型,设计矩阵和对比矩阵158
8.5.3.1 设计矩阵159
8.5.3.2 对比矩阵160
8.5.4 差异表达前的准备分析工作 161
8.5.4.1 从BAM文件开始162
8.5.4.2 从个别计数文件开始162
8.5.4.3 从现有计数列表开始
8.5.4.4 独立过滤163
8.5.5 DESeq(2)的代码示例
8.5.6 可视化164
8.5.7 参考:其他Bioconductor 代码示例 168
8.5.8 Limma169
8.5.9 SAMSeq(samr包)170
8.5.10 edgeR171
8.5.11 多因子的DESeq2代码示例 171
8.5.12 参考:edgeR代码示例174
8.5.13 Limma代码示例175
8.6 总结176
参考文献 177
第9章 外显子差异表达分析181
9.1 引言181
9.2 为DEXSeq准备输入文件183
9.3 取数据到R 184
9.4 访问ExonCountSet对象185
9.5 标准化和估计方差187
9.6 差异表达测试190
9.7 可视化193
9.8 总结198
参考文献198
第10章 注释结果199
10.1 引言199
10.2 检索附加注释 200
10.2.1 使用特定物种的注释包检索基因的注释 201
10.2.2 使用BioMart检索基因注释 205
10.3 使用GO注释 208
10.4 基因分析更多细节210
10.4.1 GOstats包211
10.4.2 Globaltest包213
10.4.3长度偏差修正方法215
10.5 总结 216
参考文献 216
第11章 可视化 217
11.1 引言 217
11.1.1 图像文件类型 218
11.1.2 图像分辨率 218
11.1.3 颜色模型 219
11.2 R 中的图形 219
11.2.1 热图 220
11.2.2 火山图 224
11.2.3 MA图 226
11.2.4 Idiogram 228
11.2.5 可视化基因和转录本结构 230
11.3 定位图形 232
11.4 总结 234
参考文献235
第12章 小的非编码RNA 237
12.1 引言 237
12.2 MICRORNA(miRNA)239
12.3 MICRORNA OFF-SET RNAS(moRNA)243
12.4 piRNA 243
12.5 内源沉默RNA(endo-siRNA)244
12.6 外源沉默RNA(exo-siRNA)244
12.7 tRNA 245
12.8 snoRNA 245
12.9 snRNA 245
12.10 增强子衍生的RNA(eRNA)246
12.11 其他小的非编码RNA 246
12.12 小的非编码RNA测序方法 248
12.12.1 microRNA-seq 248
12.12.2 CLIP-seq 251
12.12.3 降解组测序 254
12.12.4 总体的核不分段测序(GRO-seq)254
12.13 总结 255
参考文献 255
第13章小的非编码RNA测序数据的的分析259
13.1 引言 259
13.2 miRDeep2 260
13.2.1 GFF文件 260
13.2.2 已知miRNA的FASTA文件 263
13.2.3 设置运行环境 263
13.2.4 运行miRDeep2 266
13.2.4.1 miRDeep2输出 266
13.3 miRNA目标基因分析 268
13.3.1运行miRanalyzer 271
13.4 miRNA目标分析271
13.4.1 计算预测方法 272
13.4.2 人工智能方法274
13.4.3 基于实验支持的方法275
13.5 miRNA-SEQ和mRNA-SEQ数据联合分析276
13.6 小RNA数据库和资源 277
13.6.1 在miRBase中RNAseq测序中的miRNA 277
13.6.2 miRNA的表达图谱 279
13.6.3 CLIP-seq和Degradome-seq的数据库281
13.6.4 miRNA和疾病的数据库281
13.6.5 研究领域的一般数据库和资源282
13.6.6 miRNAblog 282
13.7 总结 284
参考文献 284
索引 287
欢迎关注生信人