||
未配对和配对单细胞RNA-seq和ATAC-seq数据联合整合的基准算法
在过去的10年里,世界各地的实验室已经建立了数百个单细胞RNA-seq(用于单细胞转录物丰度)或单核ATAC-seq(用于单核染色质可及性)数据集,从而发现了新的细胞类型和调控回路。此外,通过将单细胞分析应用于双状态模型,如对照组织和突变组织的比较,可以首次在细胞类型特异性水平上轻松分析基因突变引起的基因表达或染色质可及性的变化。不幸的是,每个单模态数据集要么测量基因表达,要么测量给定细胞的染色质可及性。尽管这两个数据集可以从相同的细胞群中生成,但它们测量的是不同的单个细胞。大多数情况下,这两种实验模式导致鉴定相似的细胞类型,因为用于在转录物水平上定义细胞类型的高表达基因通常具有被ATAC-seq模式鉴定为高度可及的启动子。然而,在某些情况下,这两种概况是不一致的。在这些情况下,基因表达和染色质可及性的联合分析对于解决不一致性和揭示模式特异性特征的新细胞类型和状态至关重要。此外,同一细胞的基因表达和染色质可及性的联合谱提供了顺式调控元件与其靶基因之间最直接的联系。
最近,利用所谓的“多组学”方法,在同一个细胞核中同时测定转录物水平和染色质状态已经成为可能。10 × Genomics的单细胞多组学ATAC +基因表达技术就是一个例子。多组学数据在细化细胞类型和揭示基因调控网络方面具有优势。然而,用多组学方法重复使用单模态分析进行的所有先前感兴趣的研究是不现实的,因为通常珍贵的样本不再可用或资金有限。因此,非常需要将已有的单模态scRNA-seq和snATAC-seq数据集与随后使用新技术生成的多组学数据集成在一起,以实现更准确的细胞类型注释。
针对多组学数据集成,已经开发了几种方法。在这里,将多组学整合称为在单细胞或细胞核中测量的RNA-seq和ATAC-seq谱的整合,无论是否有多组学数据的指导。这些方法试图对齐由不同技术绘制的细胞,并将它们投射到一个公共的低维空间中,以确保一致的细胞类型调用。然而,对于多组学数据的加入是否会改善单模态数据集的注释,我们仍然缺乏客观的评价。此外,一些方法试图为单模态数据集计算缺失的模态,并使用这些“伪配对”数据集识别峰值基因对。因此,它仍然不确定是否输入的缺失模态可以真正提供额外的生物学见解。最后,考虑到多组学数据集成方法的可用性,目前,我们不知道哪种方法在集成所有三种数据类型时表现最好。
目前的多组学集成方法可分为两类。第一类中的方法使用单模态数据集执行多组学集成,旨在找到基因表达谱和染色质可及性状态之间的映射,以创建一个解释两种模式的对齐空间,这些方法为“非配对集成”。这一类的代表性方法包括Seurat v3,它执行典型相关分析(canonical correlation analysis, CCA),将实验测量的基因表达与从染色质可及性中获得的伪基因表达进行比对。伪基因表达的一个例子是基因活性评分,通过将基因体内的峰值计数加上ATAC-seq数据中上游2kb的峰值计数相加来计算。LIGER也使用基因表达和活动评分来获得两种模式之间的共享特征,然后通过非负矩阵分解方法获得低维嵌入。FigR使用基于CCA的方法对snATAC-seq和scRNA-seq数据进行比对。此外,它还提供了对snATAC-seq和scRNA-seq细胞的匹配,从而能够识别顺式调控元件。 BindSC超越了基因活性评分的简单构建。相反,bindSC使用双向CCA经验地为snATAC-seq细胞构建细胞-基因矩阵,以保持其与ATAC-seq输入的相似性,同时最大化与正在整合的scRNA-seq矩阵的相关性。最近开发的一种名为GLUE的方法使用一种称为“变分自编码器”的深度学习方法来提取每种模态的特征。为了跨模式连接特征,GLUE需要一个基于知识的指导图,该指导图根据基因组的接近程度将基因组区域与基因连接起来。利用知识图和自动编码器系统,GLUE从不同的模式中学习细胞的表示,并通过迭代过程对它们进行对齐。
第二类方法包括最近的方法,这些方法结合了来自多组学细胞的信息,并整合了所有三种数据类型,以便更全面地探索细胞身份,这些方法称为“多组引导集成”。这类方法中的代表性方法包括Seurat v4,该方法首先通过加权最近邻(WNN)分析,使用RNA-seq和ATAC-seq谱,学习多组学方法所描绘细胞的低维表示。然后,以监督的方式将两个单模态数据集投影到小波神经网络嵌入空间中。MultiVI和Cobolt也使用“变分自编码器”来嵌入这三种数据类型。两种方法都使用编码器-解码器系统来学习数据的低维表示。具体来说,设置了两个编码器和两个解码器,每个模式一个。然而,这两个平台采用了不同的模型选择。MultiVI假设RNA-seq数据为负二项分布,ATAC-seq数据为伯努利分布,而Cobolt假设两种模式均为多元正态分布。此外,这两种方法以不同的方式整合成对细胞的模态特定表示。MultiVI首先通过对称的Kullback-Leibler (KL)散度损失对两个嵌入进行对齐,然后得到两个嵌入的平均值。另一方面,Cobolt简单地将两个嵌入相乘来表示配对细胞,而未配对细胞的表示首先由相应的编码器生成,并使用线性变换进行细化,以确保RNA-seq衍生嵌入与ATAC-seq衍生嵌入之间有足够的相似性。另一种称为scMoMaT,这种方法来代表了一大类称为“马赛克集成”的方法,它可以集成在单元、特征或两者都不同的数据集。此外,这些方法可以整合有三种或更多模式的情况。这里基准测试的情况并不能代表这些方法的全部能力,但希望从这一类中至少包括一种方法来代表它们在集成scRNA-seq、snATAC-seq和多组学数据集的特定情况下的性能。scMoMaT采用矩阵三因子分解框架,将每个计数矩阵分解为一个细胞矩阵、一个特征矩阵,最后是一个关联矩阵,该关联矩阵捕获细胞和特征矩阵之间的强度。
上述所有方法的目的都是将不同数据类型的单元投影到一个共享空间中,以便通过聚类来识别单元类型。然而,在单细胞水平上分析染色质可及性和基因表达的一个共同目标是了解细胞类型特异性顺式调控逻辑。由于这两个单模态数据集是由给定群体中的不同细胞生成的,尽管代表相同的细胞类型,因此单模态数据集不能简单组合以测试染色质可及性和基因表达之间的关联。因此,许多人试图为单模态数据集计算缺失的模态,旨在通过计算生成与多组学技术实验测量的相似的成对剖面。上面提到的一些方法,例如Seurat v3、FigR、bindSC、Seurat v4和MultiVI,都能够完成这项任务。然而,一个客观的评估如何可靠的在计算机上输入的资料是比较什么是由配对多组技术直接测量仍然缺乏。因此,我们的目标是通过解决两个重要问题来进行广泛的基准分析,以评估上述方法。首先,多组学数据是否改善了单模态数据集的集成?其次,scRNA-seq、snATAC-seq和多组学数据整合的最佳计算方法是什么?
为此,Lee等人对标评估的整体工作流程如图1所示。图1A说明了评估多组学数据集成是否可以提高单模态数据集价值的方法,而图1B概述了如何在多组数据集的各种条件下评估每种集成方法的有效性。作者们对现有的9种单细胞多组数据集成方法进行了基准测试。具体来说,评估了多组学数据在多大程度上为分析现有的单模态数据提供了额外的指导,以及这些方法是否从单模态数据中揭示了基因峰值关联。结果表明,多组学数据有助于单模态数据的标注。然而,在多组学数据集中获得足够数量的细胞核对于实现准确的细胞类型注释至关重要。核的不充分表示可能会损害注释的可靠性。此外,在生成多组学数据集时,对于细胞类型注释,细胞数量比测序深度更重要。即使存在复杂的批次处理效果,Seurat v4是目前可用的集成scRNAseq、snATAC-seq和多组学数据的最佳平台。详细分析结果见文献[1]。
图1 基准评估大纲。A 一种评估多组学数据是否有助于单模态数据集成的方案。B模拟场景以评估多组学集成方法
参考文献
[1] Lee MYY, Kaestner KH, Li M. Benchmarking algorithms for joint integration of unpaired and paired single-cell RNA-seq and ATAC-seq data. Genome Biol. 2023 Oct 24;24(1):244. doi: 10.1186/s13059-023-03073-x.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 19:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社