TCGA自改版之后,很多数据(eg. 甲基化数据)还没有收录进GDC。建议使用GDC的archive界面查询下载数据:https://gdc-portal.nci.nih.gov/legacy-archive/search/f
此处,以下载TCGA直肠腺癌的450K甲基化数据为例。
点击GDC Archive。(可能需要较长时间)
选择TCGA-READ
。(172表示一共检测了172个人)
在Files
栏里的Platform
里选择450K。在Data Type
里选择beta value。
raw intensities、Normalized intensities、Methylation beta value分别对应TCGA的Level1,2,3) 。详细信息见DNA methylation - TCGA Wiki
确认无误后,点击Download Manifest
下载Manifest文件(.tsv格式)。该文件中存储了数据的UUID,下载的时候需要用到。
下载meta描述文件:点击Add all files to the Cart
,然后点击右上角Cart
,再点击Metadata
,下载meta描述文件(.json)。该文件中存储了每个数据文件的平台信息、对应barcode、临床信息等。
文件点进去有Download
按钮,但是只适合下载单个文件。
虽然官方推荐使用gdc-client下载,但是gdc-client经常会断,不建议使用。
利用Manifest文件的UUID下载,如wget https://gdc-api.nci.nih.gov/data/UUID
注1:gdc-client经常会断,直接使用UUID下载下载的文件名格式不对,因此写了个脚本(download.py)来进行批量下载数据。
注2:网上有工具可以将Json文件直接转为csv,但是测试了几个,都不成功,推测是因为GDC上的Json文件不是标准的Json格式,因此写了个脚本(parse_json.pl)来从Json文件中提取数据描述信息及临床信息。
download.py下载地址
利用tsv文件从GDC Portal批量下载数据。
python download.py tsv_file outdir
#tsv_file 从GDCd下载的tsv文件
#outdir 输出文件夹,如果不存在将创建。
parse_json.pl下载地址
将json文件转换成列表格式
perl parse_json.pl meta.json meta.txt
#meta.json 从GDC下载的meta文件
#meta.txt 输出文件名
了解数据的检测对象、检测技术、存储格式、存储的数据库对于数据的下载及后续的处理分析都大有裨益。以下载TCGA直肠腺癌的450K甲基化数据为例,
检测对象:直肠腺癌病人的DNA甲基化。
检测技术:Illumina Human Methylation 450,即450K。
存储格式:Level 3的为beta值(.txt)。
数据库:GDC数据库。
需要了解自己数据检测的技术,存储的数据格式。TCGA的数据介绍可以去TCGA wiki看官方说明。
欢迎关注生信人