自测样本太少或者研究的疾病公共数据不多怎么办?数据量爆炸式增长的今天,好多文章动不动几百个样本,上千个样本。当然了,样本肯定越多越好。但是如果自己研究的疾病样本就是不多,总不能换研究方向或者不发文章了。今天为大家介绍一篇文章,看看怎样在有限的数据下,做更多的分析。
文章一月份发表在Journal of Translational Medicine(IF: 4.124)。
Three hematologic/immune system‑specific expressed genes are considered as the potential biomarkers for the diagnosis of early rheumatoid arthritis through bioinformatics analysis
通过生物信息学分析三个血液/免疫系统特异表达基因被识别为早期类风湿性关节炎潜在诊断生物标志物
一、 摘要:
类风湿关节炎(RA)是一种常见的慢性自身免疫性结缔组织病,主要累及关节。随着疾病的进展和滑膜炎症的持续,所累及的关节组织逐渐被侵蚀,最终导致关节不可逆转的损害。RA的早期诊断和治疗可以有效地预防90%的患者的疾病进展,关节损伤和其他并发症。目前,用于确诊RA的血清生物标志物是类风湿因子和抗环瓜氨酸肽抗体。但是,由于缺乏有效的生物标志物,很难诊断出早期RA,尤其是血清RF和anti-CCP抗体阴性。因此,为RA的早期诊断和治疗确定新的有效生物标志物至关重要。在本研究中,作者基于公共数据集,利用大量生物信息学方法,识别了三个可作为早期诊断生物标志物的基因。该工作提供了转录组水平上RA的疾病发展机制的见解,并探索了RA的早期诊断和治疗的潜在生物标志物。
二、 材料方法:
GEO,BioGPS,PPI,Cytoscape,ggpubr,GSEA,ceRNA
三、 结果:
1.识别差异基因
图1.识别DEG
2.识别组织/器官特异表达基因
表1.组织/器官特异表达基因
3.富集分析
图2.GSEA
图3.GO/KEGG
4.PPI网络分析,MCODE cluster模块和hub基因识别
图4.DEG PPI网络
5.靶miRNA预测与共表达网络构建
图5.mRNA和靶miRNA共表达网络
6.通过GEO数据库4个数据集验证8个特异表达的hub基因
图6.8个特异表达hub基因的验证
7.在早期RA和确诊RA样本中8个特异表达的hub基因的ROC曲线
图7.8个特异表达hub基因的ROC曲线
8.靶ncRNA的预测与ceRNA网络构建
图8.PRC1,TIK,GZMA的三个ceRNA网络与潜在的RNA调控通路
生信路线咨询
无数据如何做分析
从文章所使用的数据来看,只有一套数据样本量稍微大一点,按照常规的想法,肯定是用大样本做为训练集进行分析。但是由于文章后续要做诊断的ROC,样本太少可能不太合适。所以,文章只用了不到20个case的公共数据作为训练集。其实如果最后不做ROC曲线,做湿实验验证的话,那套样本稍微大点的数据集都用不上。如果你因为数据问题止步不前,今天的这篇文章相信会为你提供新的见解。