以下是视频的word版本
数据下载及预处理
小编今天给大家介绍下常用数据库
TCGA数据库(https://cancergenome.nih.gov/),是综合性的癌症基因信息数据库,不仅包含三十多种癌症类型,还包含了基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等等数据类型,同时还包含了匹配的详细临床信息,这么多的信息非常适合数据挖掘。
下载方式常用的有两种:
一是通过官网及gdc-client工具下载和整合
二是TCGAbiolinks包进行下载,可以更简单的获得整理好的数据。
还有就是可以通过其他数据库下载整理好的TCGA数据,小编最常用的就是UCSC Xena(https://xenabrowser.net/datapages/),它包含了TCGA的基因/外显子表达、生存信息、DNA甲基化、拷贝数、SNP数据下载,尤其是临床信息整理的很全面用起来也很方便。
GEO数据库(https://www.ncbi.nlm.nih.gov/geo/),收录了世界各国研究机构提交的高通量基因表达数据,不仅限于癌症还包含其他疾病相关的数据,在搜索框里可以输入GSE号或者关键字进行搜索。
数据通常包含标准化后的数据和原始数据,下载方式很简单,直接点击就可以下载。并且对于表达谱信息会提供GEO2R进行简单的差异分析。
ICGC数据库(https://dcc.icgc.org/),涵盖了了亚洲、欧洲等17个行政区的89项目,包含50种不同癌症类型(或亚型)的肿瘤数据,其中包括基因表达数据,临床数据等。
数据下载方式如下:
GTEx数据库(https://gtexportal.org/home/datasets),基因型-组织表达数据库,收录了来自449名生前健康的人类捐献者的7000多份尸检样本,包含了44个组织。可以用来联合TCGA数据进行数据挖掘。
下载方式需要选择版本号,并且根据自己的需要选择RNA-seq数据下载即可,同时需要下载样本的注释文件,根据其中位置等信息来提取相关的子集样本。
SEER数据库(https://seer.cancer.gov/),存储了大量美国地区癌症患者的生存信息,包含患者ID,原发灶位置,肿瘤大小,治疗方案等详细的信息,这样的数据对临床研究具有较高的参考价值。
数据下载可以通过SEER*Stat Software进行下载,申请到用户名和密码后,配合注释文件在SEER*Stat Software软件中进行选择和导出即可。
这五种数据库都是目前较为常用的,大家可以多多结合,进行自己的数据挖掘~
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史