如何开始进行单细胞 RNA 测序数据分析
大家好,今天给大家带来的文献解读是今年6月1日发表在Journal of the American Society of Nephrology[IF=9.274]上的一篇综述。在过去的5年里,单细胞方法已经能够在单个实验中监测数千个单细胞的基因和蛋白质表达、遗传和表观遗传变化。随着测量方法的改进以及测序成本的降低,这些数据集的规模正在迅速增加。主要的局限性仍然是对单细胞实验产生大量信息的分析。在本综述中,研究者对分析流程进行了简要概述。
数据矩阵的生成与质控
单细胞分析的一个关键技术进步是条形码的发展,它允许大规模并行化,同时将成本保持在最低。条形码在逆转录过程中被添加到RNA分子中,从而可以识别单个细胞和独特的分子。第一步分析步骤是生成数据矩阵,它表示原始测序文件中转录数据库的条形码。对于10x Genomics数据,CellRanger(表1)是最常用的流程,包括对基因组的测序读长进行拆分和比对、将比对上的读长注释到基因以及量化基因。另外的替代方法包括单分子标签(UMI)工具、zUMIs、kallisto、STAR和STARsolo。每个条形码可以代表一个单细胞、一个双细胞或一个不含细胞但含有环境RNA的“空”液滴。需要注意的是,标准流程是将测序数据与转录组(如处理过的成熟mRNA)比对。然而,单核RNA数据或表观基因组数据应该与全基因组比对,因为细胞核主要含有pre-mRNA,其中包括内含子区域。原始读长计数通常还会过滤掉极少数细胞中检测到的基因,从而有效地减小数据矩阵的大小。
表1 软件工具、方法和数据库概述
分析流程中的下一步是质量控制(QC),例如确定每个条形码的count值、每个条形码的基因数量以及每个条形码的线粒体基因数量比例(图2)。较少的基因数量和高比例的线粒体读长通常表明细胞质量不佳。异常高的读长和基因计数可能代表双细胞,可用双细胞检测工具进行筛查,包括DoubletDecon、Srublet和DoubletFinder(图2)。然而,双细胞检测中的一个关键问题是含有标记基因的移行细胞可能被标记为双细胞,这会导致假阳性检测。此外,这些工具只能识别较差的同型双细胞。控制环境RNA污染也很重要,环境RNA是存在于单细胞溶液中的RNA,在封装过程中被合并到液滴中,通常是使用 SoupX估计来自空液滴的环境 RNA 污染。另一个替代软件包是CellBender,它从基于UMI的scRNA-seq count矩阵中删除了由于环境RNA分子和随机条形码交换造成的计数。
图2 质量控制
标准化
单细胞数据需要不同类型和水平的标准化(图1)。常用的方法是假设每个细胞都有相同的初始转录本数,只需将数据标准化为每百万计数。除了Seurat之外,Scran,SCtransform,SCnorm和 BayNorm也是可供选择的数据标准化方法。
图1 肾脏scRNA-seq数据产生和分析的工作流程
批次效应校正与数据整合
大多数情况下,会生成多个数据集,因此需要额外的批次校正和数据整合方法(图 3)。包含多个不同实验和不同方法的较大数据集通常使用非线性方法进行整合。在Seurat中有一个基于参考的整合选项,它使用的是典型相关分析或互反主成分分析。Scanorama是Scanpy中使用的另一种普遍且效率较好的方法。最近,Harmony也变得越来越通用,迅速成为单细胞数据集最常用的整合方法。首先,PCA衍生的嵌入矩阵和批次元数据用于缩放,以便为每个细胞单元赋予一个长度参数。然后,用常规的k-均值聚类对缩放后的数据进行聚类中心初始化。最后,通过迭代地将特定批次的中心拉到聚类中心,来消除批次效应。
图3 批量效应校正和数据整合
可视化和聚类
可视化的第一步是特征选择,即保留信息基因(1000-5000)并过滤掉其他基因,这在Seurat和Scanpy中均可实现(图4和图5)。通常,降维是通过线性和非线性方法来实现的,PCA是一种线性变换,在整个PCA中保留了细胞之间的欧氏距离。在常见的Seurat流程中,预处理阶段使用PCA可以将主成分映射到技术和生物协变量中,以了解其效能(图4)。单细胞数据可视化主要使用其他非线性降维方法,如t-SNE。这种方法侧重于以舍弃全局结构为代价来捕捉局部相似性。UMAP方法也因其高效而广受推崇,它似乎能更好地捕捉潜在的数据结构,并能在两个以上的维度上汇总数据,因此,它现在最常用于单细胞数据可视化。
图4 可视化
图5 Scanpy 中单细胞分析的基本工作流程
基于基因表达相似性而形成的细胞簇是分析的第一个直接结果。细胞聚类允许基于基因表达的相似性对细胞进行分组来推断细胞类型。聚类是一种基于距离矩阵的无监督机器学习过程,簇并不一定意味着细胞类型。目前,关于最佳聚类参数还没有统一的标准,因此,可以接受对同一数据进行多种版本的聚类和解释。Wilcoxon秩和检验用于通过组间表达差异对基因进行排序。
细胞水平分析:细胞组分变化、分解和轨迹分析
细胞组分的变化与疾病状态有很强的关联性,这是单细胞分析最简单的结果之一。这些数字可提供条件之间的相对估计,但从单细胞数据推断的细胞组分可能不准确,因为单细胞文库制备的细胞捕获存在偏差。为了推断大量RNA-seq数据的细胞类型组成,MuSiC是最近开发的以单细胞表达数据为基础的用于大量组织细胞类型去卷积的方法。MuSiC使用加权非负最小二乘回归来估计细胞类型组分,可选的替代方法包括 CIBERSORT、BSEQ-sc和BisqueRNA。
细胞多样性不能通过离散分类系统(如聚类)来充分描述,轨迹分析捕捉了细胞在转变过程中的显著特征。因此,捕捉细胞特性之间的转变、分支分化过程或生物功能的渐进变化需要基因表达的动态模型。Monocle 是一种机器学习方法,用于重建每个细胞在从一种状态转换到另一种状态时必须执行的基因表达变化序列。它是基于反向图嵌入的,这是一种高度可扩展的非线性流形学习技术。RNA速度是基因表达状态的时间导数,可以通过区分剪接和未剪接的mRNA来直接估计,它是一个高维向量,可在数小时的时间尺度内预测单个细胞的未来状态。在最近开发的RNA速度分析中实现了一种更新的细胞历史分析方法,如包velocy。TradeSeq是基于称为Slingshot的先前方法,其性能优于其他简单轨迹分析方法。另一个有用的包是PHATE,这是一种使用数据点之间的信息几何距离来捕获局部和全局非线性结构的可视化方法,但是推断的轨迹不一定代表生物过程(图6)。
图6 下游分析
基因水平分析:差异表达、基因调控网络、驱动通路和细胞间相互作用
Seurat可以使用不同的模型进行差异表达(DE)分析(图6)。为了将scRNA-seq数据集信息与其他表型变量相关联,基于回归的模型可以结合多个样本及其相关的表型特征,以将某些细胞类型(如近端肾小管细胞)中的基因表达变化与相应的定量测量表型(例如GFR、蛋白尿)相关联。基因水平分析也可以与基因集富集分析方法相结合,如基因集富集分析或加权相关网络分析。单细胞分析领域的最新进展是使用成对基因标记进行配体-受体分析,细胞簇之间的相互作用是通过受体及其同源配体的表达来推断的。配体-受体对标记可以从相应的数据库,如CellPhoneDB或Connectome获得,并使用统计模型来解释跨簇的高表达基因。
单细胞分辨率下的基因调控
snATAC-seq允许通过分析染色质可及性来分析单细胞中的表观基因组景观(图 7)。对于snATAC-seq分析的工具中,建议使用SnapATAC,这是一种非线性降维方法。在CellRanger中生成逐个细胞的条形码矩阵后,使用SnapATAC对矩阵进行预处理。为了识别异质性组织中的细胞类型,SnapATAC利用扩展映射中获得的低维嵌入来消除批次效应。然后,使用从k最近邻算法中选择的k值作为输入,使用Louvain算法执行聚类。为了识别不同细胞类型中的富集基序,可以使用 HOMER或chromVAR对snATAC-seq数据进行转录因子分析。为了研究开放染色质变化如何与细胞分化和细胞命运决定相关联,使用Monocle3进行轨迹分析,通过使用潜在语义索引减少维度,并通过UMAP进行可视化。为了了解开放染色质和靶基因表达的变化,主要通过分析在Cicero中实现的两个峰的共同可及性来进行峰-峰相关性研究。值得一提的是,Satija实验室开发了数据分析自动化平台(http://azimuth.satijalab.org/app/azimuth),它允许将单个数据集映射到参考数据集中。研究人员可以上传本地生成的数据集,该软件包会自动执行上述步骤,并与人类血液参考数据进行聚类。
图7 snATAC分析管道
参考文献:How to Get Started with Single Cell RNA Sequencing Data Analysis