TCGA数据库介绍
TCGA由NCI牵头,作为美国攻克癌计划的一个大的project,投入巨大的人力和资金,较早的进行深度测序,提供Gene expression, DNA methylation, Copy Number Variant, Mutation还有更深度的exon expression外显子测序结果,其临床数据整理的相对最完整,指标最多。在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最为完整和可靠的。GDAC由美国MIT和Harvard共建的Broadinstitute运行,UCSC运行着Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供较为完善的TCGA数据为基础的各类信息检索服务。
GDAC数据库下载,网址是:http://firebrowse.org/
不完整的界面如上,红色框内其实是一个下拉列表,所有疾病都在里面,下拉选择后右侧会显示柱状图,统计的是各种平台数据的样本数,想要下载哪个平台的数据直接点击柱状图就可以,他会弹出一个框,然后点击对应链接即可下载,注意哦,那个链接是静态的,也就是说你可以右键复制链接地址然后用迅雷下,很快就下载完了,是所有样本的表达值合并的数据矩阵,不需要自己合并的哦,当然他还有一个ftp的地址,但是我忘记了
cbioportal-网址:http://www.cbioportal.org/
其实这个网站我不太喜欢,因为还没找到下载所有数据的,他最多一次只能下载100个基因,首页如下
废话不多说,右侧那个看起来像热图的方块格子鼠标移上去会显示对应疾病的样本个数,这里以一个基因为例:TP53
提交之后跳转界面如下:
以上就可以下载到数据了,所有的数据都可以用excel打开,自己整理整理就行啦
UCSC的Cancer Browser-网址:https://genome-cancer.ucsc.edu/
最后下载完了是這样的,只要图中圈起来的两个文件就好了,用excel打开就像,自己整理一下就可以用了
以上三个是比较常用的数据库,更新也比较及时,在新版TCGA中的数据比较难下载,可以用以上三个,但是注意三个数据第一个是更新最及时的,建议用第一个。
欢迎关注生信人