哈喽,艾瑞巴蒂,好久不见!今天小编为大家介绍一个查找人类和小鼠单细胞测序数据的在线工具:PanglaoDB (https://panglaodb.se/),这篇文章是今年1月份发表在DATABASE杂志上的。
对于单细胞测序(scRNA-Seq)这个生物信息界的“流量新星”,想必大家多多少少都已经有所了解。scRNA-seq是一种在单细胞水平上测量基因表达的技术,它的分辨率达到了前所未有的水平,已经被越来越多地用于研究组织、器官以及整个生物体的细胞结构。与测序量达到几千细胞的RNA-seq相比,scRNA-seq提供了更详细的信息,并对研究细胞的状态、轨迹和异质性提供了新的视角。在一个典型的scRNA-seq实验中,组织切片中的细胞被分离,然后选择出一个细胞,将RNA逆转录生成包含数千个转录本的cDNA文库,每个转录本都使用一个独特的寡核苷酸码进行标记。由于测序文库是建立在单独一个细胞上的,而非一群细胞,因此有可能一个基因在一个细胞中能检测到中等表达量,但是在另一个细胞中却检测不到,这种现象叫做"gene dropouts"。基于此,目前已经开发出了多种scRNA-seq的方法和平台,例如,Drop-seq ,10X Chromium和SMART-seq2。
现存的较为常用的scRNA-seq数据库有SCPortalen(收录的信息包括了单细胞的图片、数据和序列,可以按照细胞和数据集进行搜索)和scRNASeqDB(收录了38个单细胞转录组的数据集和13440个样本的信息,其中GEO数据库中的数据集有36个,我们可以根据基因或者细胞进行搜索),与之不同的是,PanglaoDB提供预计算的生物信息学分析和高级可视化界面。
图1. 数据库主页面
PanglaoDB的数据来源是NCBI SRA,作者他们将数据进行了筛选和预处理,其中
只包含人类和小鼠的scRNA-seq数据。目前,共有924个小鼠和258个人类的数据集(数据更新的速度还是挺快的),点击samples之后进入图2界面,我们可以筛选测序平台,还可以将数据集按照时间、组织类型、测序方法等进行排序;SRA是进入NCBI SRA的数据链接,最右边的view可以查看作者团队对数据做的一些处理。
图2. Samples
接下来我们以SRA608611数据集为例进一步浏览(图3),左侧是数据集的一些基本信息,右侧是该数据集的细胞聚类图(使用的是Seurat中FindClusters的PCA方法),分别使用t-SNE和UMAP进行降维可视化,不同的颜色代表不同的簇。
图3 samples-->view
点击interactive可视化之后,将鼠标放在某一点上,我们可以查看该簇包含的细胞数,簇标识符以及作者他们预测的细胞类型(图4)。
图4 交互式聚类图
PanglaoDB还有两个比较重要的板块是Gene Search和Cell type markers.
通过Gene Search我们可以查看某个或一组基因在哪些样本中有表达,以CDK4基因为例,柱形图x轴是该基因有表达的细胞类型,y轴是相应的细胞类型包含的细胞簇的数目(图5-1);图5-2中每一行代表一个该基因所在的细胞簇,我们可以查看物种和组织类型,基因在该簇中表达值的排秩,预测的细胞类型,最右侧的两个工具可以查看整个数据集的详细信息。
图5-1
图5-2
Cell type markers是一组用来定义细胞类型的gene markers,不同的类型对应的基因数目也有所差别,目前有170 cell types, 4578 gene symbols, 27 tissues。我们以B cells naive为例(图6),该分型有69个基因markers, get tsv file可以下载相应的文本文件。每一行代表一个基因,Species表示该基因更有可能是人类(Mm)还是小鼠(Hs)的marker,UI是基因在细胞簇中表达频率的一个指标,取值0到1;灵敏度表示基因唯一标识该细胞类型的概率;Marker count 包含该marker的类型数;另外还有该基因产物的描述,以及是否有文献证实该基因与疾病相关。
图6
总的来说,现在的测序数据还是以二代为主的,scRNA-seq相关的生物信息学研究也不是很多。希望今天的内容可以给奋斗在科研战线的对单细胞测序的小伙伴们提供一丝丝帮助,感谢!
有意向者
请加微信13621202201