1、TCGA简介
美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。
TCGA 使命:提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力
TCGA 目标:完成一套完整的与所有癌症基因组改变相关的“图谱”。
1、特别版-生信人开发工具
TCGA改版后数据下载看起来不是那么好下了,然而小编也分享过TCGA的几种下载方式,但是实在是愧对大家。因为小编自己也几乎不用那些下载方式,为什么呢,就是感觉也不方便啊!今天给大家分享一个小编下载TCGA的自带断点续传功能的另类软件,共7M,下载即用免安装的小工具,私货哦(此处应该卖萌)……
先上软件截图:
软件的功能简介如下(手机的话就将就放大看吧,相信你下载数据肯定是用电脑的):
从功能简介上可以看出软件支持TCGA新版所有数据(有下载权限的)下载,然后还提供临床随访信息提取(就是那个Clinical解析按钮啦);
大家都知道新版数据中把原来的GeneSymbol换成ENSG了,有时候感觉好不方便啊,还是GeneSymbol看起来比较舒服一些,这个软件也提供了转换的功能(就是那个ENSG_ID转换按钮啦);
该软件考虑到菜鸟和老鸟的使用感受,原汁原味的从TCGA下载数据保存起来,以便老鸟自己基于这些原始数据进行处理,对于菜鸟则可以使用软件提供的简单的数据功能将这些数据转换成表格形式(就是那个合并文件按钮啦)。
软件使用及其简单,一眼就会,推荐一个快速上手的步骤:
首先左侧双击想要下载的癌型,等待右侧检索提示(这里得保证你电脑能够上TCGA, 毕竟软件只是帮你冲TCGA获取数据;当然你浏览器挂了VPN能上TCGA,软件也上不了。。。),等检索完右侧检索中就会出现该癌症类型下的所有可以下载的数据类型及样本量,这时你点击下载选择数据保存的目录(Tips:一个数据类型单独放一个目录,重复下载除外);等待下载完毕。然后使用合并按钮进行数据合并,这样多个样本就能合并成一个表格了。然后如果你要转换ENSG ID就选择转换按钮,如果你下载的数临床数据要解析成表格就选择Clinical解析。大概的步骤是这样,不要奇怪三个按钮的顺序为啥是从右到左的,我猜作者可能是个左撇子!
重点提示:
1、 这个软件支持***断点续传***,怎么传:假如网速慢共有三百个样本,只下载了100个,没时间等了,没事!!!你大可以关掉,下次下载时你只要选择上一次同样的下载目录,软件会根据已下载的文件来判断和继续下载未下载的。
2、 这个软件360是报毒的,所以你要使用得添加信任,至于为什么会报毒,问过360了,交钱给360买证书,这是一个简洁的不能再简洁的软件,所以大家方便用用就好。
3、 别忘了看菜单栏,随时查阅更新TCGA相关教程
Tips:写了这么多,最后发现没有下载地址,好吧。。。。。感觉放哪都不方便,还是去咱们QQ群里下载吧,没加群的扫码进群,位置不多了,速度!!!
进群请注明:
单位+研究方向+姓名
2、其他下载数据工具介绍
TCGA数据源大部分都是公开的,如何有效的进行收集和预处理 是一个头疼 的问题。
首先下载数据的方法有如下几种
官网、cBioPortal、ICGC、TCGA-Assembler、GenePattern
3、工具使用详解
(1)直接去官网下载。这个具体参考其官网的操作文档就可以啦。
(2)cBioPortal
点击下载数据按钮之后,可以按照目前研究的癌症的类型和发表的年代进行选择,然后选择相应的数据类型,比对snp突变,拷贝数变异和表达谱数据等。
这个工具最好的地方在于 ,你可以选择你感兴趣的基因,然后点击submit提交,坐等下载就可以啦。当然这个工具还是支持一些在线分析的。
(3)ICGC
ICGC 可以在搜索框中直接搜索你感兴趣的癌型。然后回车,选择相应的数
据。
选择相应的数据,然后点击下载。
然后选择想要下载的数据类型。
然后坐等下载,就可以啦。
(4)TCGA-Assembler
可以使用TCGA-Assembler这软件去下载TCGA的数据http://www.compgenome.org/TCGA-Assembler/。TCGA-Assembler不但可以很方便的下载数据,还能对数据进行初始化处理,非常方便。下载完后,我们使用首先要安装一些依赖包。通过下面的命令:
install.packages(c("HGNChelper", "RCurl", "httr", "stringr", "digest", "bitops"), dependencies=T)
安装完了依赖包,我们进入刚才下载的TCGA-Assembler的目录,使用setwd(C:/Users/cloud/Desktop/TCGA-Assembler)设置TCGA-Assembler的目录为工作目录,接下来,我们就可以下载数据了。我们需要下载什么数据,就选择相应的脚本。具体代码见丁香网有具体的讲解。
(5)GenePattern。小编没有具体用过,大家伙自己去尝试吧。
这些工具使用起来还是有其局限性,都不能够轻易获取每个癌症类型的二维数据矩阵(例如基因为rows,样本为columns)。
参考资料:
http://www.cbioportal.org/public-portal/cgds_r.jsp
http://dcc.icgc.org/download/current
http://www.compgenome.org/TCGA-Assembler/
http://www.broadinstitute.org/cancer/software/genepattern/download/index
http://www.dxy.cn/bbs/topic/31315813
http://emuch.net/html/201403/7089959.html
欢迎关注生信人