5+"超级"预后模型分析,速度来
生信干货
sxr ·2019年8月15日 17:51
EbioMedicine(6+)上7月26号发表了一篇关于乳腺癌预后打分模型的文章,涉及多套表达谱数据,分析思路清晰,可模仿性非常强。A 23 gene–based molecular prognostic score precisely predicts overallsurvival of breast cancer patients大概意思是之前的预后marker或者模型是侧重亚型的,从整体上建立一套打分系统,不考虑亚型的情况下进行有效的预测,是没有系统研究过的,所以这就是阿拉磨刀霍霍研究这个的目的。1、从下载人的全部的编码基因(这个课题侧重编码基因,其他癌型可以考虑ncRNA、突变位点、CNV、甲基化 bulabula)2、利用TCGA的数据直接做生存分析,全部都做,筛选预后相关的基因。(不管有没有差异,全部都做)
3、meta分析,通过已有的数据进行验证和筛选,得到184个候选基因。
4、换一套数据,METABRIC拆成训练和测试两个数据集,然后机器学习提取特征,提取了23个基因。
5、进一步利用人工神经网络进行训练,然后构建预后打分模型mPS。6、模型的验证,利用METABRIC的另一部分数据进行验证,还利用了GSE86166、GSE96058数据集进行独立验证。总体来说这篇文章模仿点在于数据,至少要有4套数据:一个做预后提取的数据(TCGA)、一套大样本的数据集用来做模型训练(ICGC、GEO、CGGA(胶质瘤))、还有两套独立的数据集(GEO芯片和RNA-seq各一个)。当然如果目标没这么大,发个3-5就不用这么麻烦了,
可模仿性强,感兴趣的扫码填写需求吧。
