癌症细胞系(Cancer cell line,CCL)是癌症研究中最常用的实验材料。然而由于长期培养和传代,CCL容易被污染,甚至误用,导致错误的发现,浪费时间、精力和资源。目前CCL鉴定的方法主要是送样到专门的细胞鉴定中心,通过短串联重复序列(Short Tandem Repeats,STR)和单核苷酸多态性(Single nucleotide polymorphism,SNP)等DNA多态性信息鉴定。如果有该CCL的RNA-seq表达矩阵的话,可以简便的使用今天介绍的CCLA在线工具快速和免费的鉴定细胞系。
CCLA方法介绍
CCLA的模型构建工作流程如下图所示,简而言之,CCLA整合了已有CCL基因表达谱和机器学习算法以鉴定CCL的类型。主要步骤如下:(1)从权威细胞系数据库(Cancer cell Line encyclopedia,CCLE和Genomics of drug sensitivity in cancer,GDSC等)整理CCLs的基因表达谱,从文献挖掘和软件数据库搜索获得CCL的特征基因;(2)使用细胞系特征基因的单样本基因集富集分析(ssGSEA)分数作为特征代替原始CCL的基因表达谱;(3)使用t-SNE(t-distributed Stochastic Neighbour Embedding)方法对参考细胞系进行大类划分;(4)基于特征基因集的ssGSEA得分,采用随机森林(Random Forests,RF)算法对待预测样本进行预分类;(5)进一步比较样本与所在类别中每个参考CCL之间的整体相似度和距离,判断该CCL的归属。
Sample_name:样本名称;Cell_line:样本所属的细胞系;Tissue:细胞系所属的组织类型;Source of matched cell line:所属细胞来源;No. of signature gene in sample: 对应的样本中的特征基因的数目;No. of signature gene in reference cell line: 样本所属的细胞系的特征基因的数目。样本中特征基因的数目与所属细胞系的特征基因的数目越接近,结果越可靠。
Qiong Zhang, Mei Luo, Chun-Jie Liu, An-Yuan Guo#, CCLA: an accurate method and web server for cancer cell line authentication using gene expression profiles, Briefings in Bioinformatics. bbaa093 Online