今天要给大家介绍的是今年十二月发表在Frontiers in Oncology(IF: 4.137)上的一篇文章,是关于胆囊癌预后预测的,做预后的小伙伴不要错过呀,文章涉及了SEER这个包含多种癌型临床信息的数据库,但是没有生物信息分析的各组学数据哦。文章结尾附带数据库的简要介绍呦!
Prognostic Model to Predict Cancer-Specific Survival for Patients With Gallbladder Carcinoma After Surgery: A Population-Based Analysis
预测术后胆囊癌患者癌症特异性生存的预测模型:基于人群的分析
一.研究的主要内容
1. 患者特征的总体描述
文章的第一部分首先介绍了研究所涉及的样本的总体情况。在这项研究中,作者在SEER数据库识别出2762例胆囊癌(GBC)患者,以及在SYSUCC数据中获取了152例术后GBC患者。这些患者对应的CIF曲线如图1所示。作者研究了肿瘤分化程度对GBC的影响,结果如表1,发现与分化程度较好的肿瘤相比,分化程度中等或较差的肿瘤对GBC死亡的影响更大。接着作者研究了不同的临床因素对患者生存的影响,生存分析结果如图2所示。
图1 通过患者特征对累积癌症特异性以及竞争性死亡的分层分析
表1 胆囊癌患者的总生存率和累积死亡率
图2按患者特征分层的生存分析
2. OS以及CSS的单因素多因素分析
接下来在这一部分作者采用单因素以及多因素分析进行生存研究以寻找预后因素。作者将四分之三的样本划分为训练集,剩下的作为内部验证集,对多种因素进行单因素以及多因素分析,结果如表2所示。
表2 单因素以及多因素分析结果
3. OS以及CSS诺模图的构建以及验证
在这一部分,作者建立了一个诺模图来预测OS,如图3所示。使用c-index在训练集以及验证集中对诺模图进行评估(表3)。在图4中可以观察到,无论是训练集还是内部验证集中预测的生存都与实际的生存具有高度一致性。除此之外就CSS而言,也可以观察到诺模图在内部数据外部数据中的预测准确性(图5)。
图3 OS的诺模图
表3 胆囊癌患者nomograms和TNM分期系统的c-index
图4 训练集1年、2年和3年OS预测的nomogram校准图
图5 训练集1年、2年和3年CSS预测的nomogram校准图
4. ROC曲线下面积值的比较
作者在这一部分对诺模图的预测能力进行了评估,将诺模图与TNM分期系统进行比较,结果如图6所示。接着作者在在训练集中对诺模图以及TMM的ROC曲线下面积即AUC进行了评估。观察到诺模图的AUC更高,即相对而言诺模图的预测效能更好(表4)。
图6 nomogram和TNM分期系统1年、2年和3年OS预测的ROC曲线比较
表4 nomograms和TNM分期AUC值的比较
二.SEER数据库的简要介绍
1. SEER数据库简介
文章的主要内容介绍完了,接下来我们介绍下文章所用到的数据资源,SEER数据库。该数据库全称为:Surveillance, Epidemiology, and End Results。这是一个包含许多癌症临床信息的数据库。数据库所涉及的肿瘤划分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。地址为https://seer.cancer.gov/。数据库数据记录中包括患者的个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。
图7 SEER数据库首页
2. SEER数据下载
简要介绍完SEER数据库概况后,让我们一起看一下如何下载SEER数据吧。想要使用该数据库的数据首先需要注册账号。SEER官网提供的一款桌面软件SEERStat,可以用来下载SEER数据,这是目前最广泛并且最为简单的数据获取手段。
图8 SEER数据库数据的下载
3. SEER数据库的简要展示
该数据库可以按照癌型进行分析,如下图红框1所示,可以选择一种癌型,来检索该癌型的信息。此外还可以就多个临床信息进行分析,如下图红框2所示,包含多种影响预后的因素信息。这个数据库包含许多癌症相关的统计信息,可是说是做预后小伙伴的不错选择了,但是没有生物信息分析各组学数据哦!感兴趣的同学可以进一步仔细探索呦。
图9 SEER数据库的简要展示
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史