聚焦“中国脑胶质瘤基因组图谱” -
CGGA数据库发布近2,000例组学数据
2019年7月1日发文神库CGGA更新。更新之后数据库中共包含了286例全外显子测序数据,两个批次共计1018例全转录组测序数据,301例mRNA芯片数据,198例microRNA芯片数据以及159例甲基化芯片数据。
数据库中还包含与组学数据相匹配的临床数据,如组织病理分类,WHO分级,性别,年龄,放化疗情况,生存及其状态等信息。
脑胶质瘤是中枢神经系统的恶性肿瘤,脑胶质瘤的发病率在5/10万-8/10万,5年生存率在全身肿瘤中仅次于胰腺癌和肺癌,位居第三位。尽管国际医学界对其投入大量精力,取得了一些进展,但目前脑胶质瘤特别是胶质瘤母细胞瘤的治疗仍然是一个世界性难题。自2004年,北京市神经外科研究所副所长江涛教授团队开始致力于中国脑胶质瘤生物样本库的建设及其大规模临床随访数据的收集。在我国神经外科创始人王忠诚院士的指导下,2012年江涛教授团队发起并创建了中国脑胶质瘤基因组图谱计划 (CGGA, Chinese Glioma Genome Atlas; http://cgga.org.cn)。该数据库旨在通过基因组学技术及其生物信息学分析,全面绘制中国人群的脑胶质瘤基因组图谱,让国内外更多从事脑胶质瘤的研究者可以对数据库进行挖掘利用。据不完全统计,已有国际上多家知名科研机构近200篇SCI论文引用该数据库。
图1. CGGA数据库主页
经历15年临床标本、组学数据和临床数据的积累,该数据库日臻完善。近日,CGGA数据库发布了近2,000例不同组织病理分类、不同WHO恶性度分级、原发/复发中国人群的脑胶质瘤的基因组学数据,其中组学数据包括:全外显测序数据 (286例)、mRNA芯片检测数据 (301例)、mRNA测序数据 (1,018例)、microRNA芯片检测数据 (198例),以及DNA甲基化芯片数据 (159例)。此外,该数据库还涉及详尽的临床数据,涉及患者性别、年龄、放疗和化疗情况、最长长达4,537天的随访数据等。目前,CGGA数据库中的所有数据均为全世界研究者免费开放。针对不同组学数据特点,该研究团队还开发了不同的在线可视化分析工具,包括基因突变图谱,基因表达分布,DNA甲基化模式,相关分析以及生存分析等结果进行可视化。
图2. CGGA数据库中数据统计及其分析结果展示
依托于北京市神经外科研究所、首都医科大学附属北京天坛医院、国家神经系统疾病临床医学研究中心、以及中国脑胶质瘤协作组 (CGCG),江涛教授团队建立的CGGA数据库已经成为亚洲乃至全世界最大规模的脑胶质瘤医学信息工程。该数据库的建立有助于描绘中国人群脑胶质瘤的基因组及分子遗传学特征,探寻脑胶质瘤发生发展过程中的重要分子机制,为脑胶质瘤的分子分型和药物靶点研发提供指导,并为脑胶质瘤精准医学全链条的发展奠定基础。不断建设和完善的CGGA数据库已然走在国家医学科技创新的前列,将不断促进我国脑胶质瘤领域基础和临床研究水平的发展并提高我国癌症研究的国际影响力,最终推动脑胶质瘤新型诊疗模式的发展,让更多脑胶质瘤患者获益。
数据库使用手册:
1. “基因突变图谱”模块 - 对感兴趣基因集合的突变谱进行可视化
查询页面:http://cgga.org.cn/analyse/WEseq-data.jsp
选项卡:Oncoprint
输入:
Dataset: WEseq_286
Gene List: IDH1 IDH2 CIC NOTCH1 FUBP1 TP53 PTEN ATRX
Plot Type: Primary LGG
可视化结果网址:
http://cgga.org.cn/Analyse_WEseq2Oncoprint?dataset=WEseq_286&genelist=IDH1%20IDH2%20CIC%20NOTCH1%20FUBP1%20TP53%20PTEN%20ATRX&plot_type=Primary%20LGG
可视化结果:
图3. 原发低级别胶质瘤中关键基因的突变谱
2. “基因表达分布”模块 - 对感兴趣基因的表达分布进行可视化
查询页面:http://cgga.org.cn/analyse/RNA-data.jsp
选项卡:Distribution
输入:
Dataset: mRNAseq_325
Gene: ADAMTSL4
可视化结果网址:
http://cgga.org.cn/Analyse_RNA2ED?dataset=mRNAseq_325&gene=ADAMTSL4
可视化部分结果:
图4. ADAMTSL4基因表达分布 (WHO分级)
图5. ADAMTSL4基因表达分布 (2016 WHO分型)
3. “DNA甲基化模式”模块 – 对感兴趣基因的甲基化水平进行可视化
查询页面:http://cgga.org.cn/analyse/Methyl-data.jsp
选项卡:Distribution
输入:
Dataset: Methyl_159
Gene: ALDH1A3
可视化结果网址:
http://cgga.org.cn/Analyse_Methyl2ED?dataset=Methyl_159&gene=ALDH1A3
可视化部分结果:
图6. ALDH1A3甲基化水平分布 (WHO分级)
4. “相关性分析”模块 – 对感兴趣基因对的共表达模式进行可视化
查询页面:http://cgga.org.cn/analyse/RNA-data.jsp
选项卡:Correlation
输入:
Dataset: mRNAseq_325
Gene: ADAMTSL4
可视化结果网址:
http://cgga.org.cn/Analyse_RNA2Corr?dataset=mRNAseq_325&geneA=ADAMTSL4&geneB=CD274
可视化部分结果:
图7. ADAMTSL4与CD274 (PD-L1) 在原发胶质瘤中的表达相关模式可视化
5. “生存分析”模块 - 对感兴趣基因进行生存分析可视化
查询页面:http://cgga.org.cn/analyse/RNA-data.jsp
选项卡:Survival
输入:
Dataset: mRNAseq_325;
Gene: ADMTSL4;
可视化结果网址:
http://cgga.org.cn/Analyse_RNA2Surv?dataset=mRNAseq_325&gene=ADAMTSL4
可视化部分结果:
图7. ADAMTSL4在原发胶质瘤中的预后作用可视化
更多精彩,关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史