scPhere: NC发表的单细胞测序数据降维方法
今天小编给大家分享一篇2021年5月份发表在Nature Communication (IF=12.123)上的文章Deep generative model embedding of single-cell RNA-Seq profiles on hyperspheres and hyperbolic Spaces。作者开发了新的降维方法scPhere,这是一种可扩展的深度生成模型,可将细胞嵌入低维超球面或双曲线空间中,以准确表示 scRNA-seq 数据,解决了多层次、复杂的批次因素,促进了大型数据集的交互式可视化,接下来一起来看一看scPhere的强大功能吧。
背景
单细胞基因组学为全面分析细胞之间的关系开辟了道路,包括它们的不同类型、状态、生理转变、分化轨迹和空间位置,尽管 scRNA-seq 数据集具有高维的特征,但它们的关键内在维数通常较低,因为许多基因是共表达的,并且细胞类型、基因程序或检测到的转录本数量等一些变量可以解释很大一部分数据集中主要的变化。因此,降维、可视化或下游分析已成为单细胞基因组学中探索性数据分析的关键策略。然而,tSNE等当前的降维方法经常被多个同时发生的技术和生物变异所混淆,导致潜在空间中心的细胞“拥挤”,或者不能充分捕捉时间关系。因此,作者提出了基于深度生成模型的方法,将细胞嵌入超球面或双曲线空间,以更好地处理复杂的批次效应并捕捉它们的内在属性。
代码软件:https://github.com/klarman-cell-observatory/scPhere
结果
1. 将 scRNA-seq 数据映射到超球面或双曲潜在空间
作者开发了一种深度学习方法scPhere,采用 scRNA-seq count数据和有关多个已知混杂因素(例如批次、处理条件)的信息作为输入,可以将细胞嵌入超球形或双曲线潜在空间,识别细胞潜在结构(图 1)。作者发现scPhere是一种更合适嵌入细胞的方法,因为它们不会被限制在中心聚集。在期望具有大量轨迹的分支结构的情况下,双曲空间具有足够的能力来嵌入所有的分支结构(树),这些树的节点数量随深度呈指数增长。对于 3D 可视化,scPhere 将细胞放置在球体的表面区域,这样只需旋转球体即可看到所有细胞,从而避免了探索 3D 嵌入内部的常见挑战,可用于数百万个细胞的交互式可视化。
2. ScPhere 可以可视化具有多种细胞类型和层次结构的大型数据集,而不会出现细胞拥挤
将 scPhere 应用于人类和小鼠的六个 scRNA-seq 数据集,并与t-SNE、UMAP进行比较分析,结果表明其球形潜在变量有助于解决细胞拥挤的问题。当应用于具有大量细胞和cluster的数据集时,scPhere 与其他方法相比的优势尤为明显。虽然 scPhere具有球形或双曲线潜在空间结构,但t- SNE 和 UMAP都可以很好地识别单个细胞类型(图 2)。也就是说,scPhere更适合展示大批量数据的全局结构,这种优越性是以牺牲局部结构尤其是局部结构之间的界限为代价的,这将尤其适合大批量细胞测序的10X测序数据。
3. scPhere 有效地对复杂的、多批次变量进行建模
现实生物数据集中的单细胞图谱通常受到多种因素的影响,包括单独实验和不同实验室协议中的技术批次效应,以及生物因素,如个体差异、性别、疾病或组织位置。然而,大多数批量校正方法只处理一个批量变量并且可能不太适合当前数据集日益增加的复杂性。然而,scPhere 可以学习具有多个变量的数据模型。为了评估其执行批量校正的能力,作者将 scPhere 应用于之前在复杂的实验设计中分析的 301,749 个细胞的数据集,该数据集来自 18 名溃疡性结肠炎患者的结肠粘膜和 12 个健康个体。结果显示scPhere不仅概括了作者最初研究中的主要细胞群,而且使作者能够更好地直观地探索细胞关系(图3)。
4. 即使在非常低维的空间中,ScPhere 也能保留 scRNA-seq 数据的结构
作者系统地评估了 scPhere 在嵌入具有少量维度的潜在空间时的性能,与k-NN、tSNE、UMAP 和 PHATE进行比较,结果显示了足够媲美以上方法的性能(图未展示)。
5. 通过 scPhere 模型重新发现受不同生物因素影响的细胞
作者使用 scPhere 校正多级批次效应的能力来确定哪些细胞类型主要受特定生物因素(如疾病)的影响。作者为此任务进行了两次分析。在第一种方法中,基于 scPhere 生成去噪输出的能力,在学习潜在嵌入坐标时提供了疾病(健康、未发炎或发炎)和患者作为批次向量。在第二种方法中,作者使用来自健康和非炎症组织的细胞训练k- NN 分类器来预测来自炎症组织的细胞类型。事实上,与其他细胞类型相比,炎性成纤维细胞的 TPR 非常低,大多数被错误分类为WNT2B+成纤维细胞,约 10% 被错误分类为WNT5B+成纤维细胞,这有助于评估它们的可能来源。
6. 通过在球体上嵌入细胞来推断空间位置。
作者表明可以通过marker基因的表达分布,来推断特定细胞类型或细胞状态的空间分布特征。值得注意的是,通过将分布在平面上的单元格转换为复杂的形状,这种映射方法可以扩展到非球形形状。
7. 将细胞嵌入双曲空间以发现和解释轨迹
作者进行的轨迹分析,并且发现了在tSNE和UMAP当中难以发现的轨迹趋势。(轨迹分析中的主流不是RNA速率和monocle的伪时序吗?小编也不理解作者这里为什么没有对这两种方法进行对比分析。)