||
RNA流速的挑战与进展:跨多种生物学背景的比较分析
单细胞 RNA 测序(scRNA-seq)能够表征数千种转录组状态,这些状态由细胞间不同的基因表达谱定义,并且许多计算方法已被开发用于推断状态谱系。虽然一些细胞群体处于平衡状态,但其他细胞群体由于细胞分化、环境变化、细胞周期或疾病干扰而不断变化。scRNAseq 数据为研究细胞轨迹提供了独特的机会,即不同细胞状态之间的顺序转变,并通过分析指导这些转变的基因表达模式动态变化来识别驱动这些过程的调控程序。
存在许多计算方法可以从单细胞数据中推断细胞轨迹,其性能通常取决于数据类型、生物学背景和所使用的性能指标。一种广泛使用的技术是 RNA流速,它根据细胞的 mRNA 剪接动力学预测细胞未来的状态(图 1a)。
RNA流速将动态建模应用于 scRNA-seq 数据,以预测单个细胞之间的状态转换。随着 mRNA 在细胞中成熟,内含子通过剪接过程被移除,因此一部分最近合成的 mRNA 分子处于未剪接状态,而其余的则被加工成其剪接的成熟状态(图 1a,上面板)。通过考虑剪接和未剪接 mRNA 测量的比例,RNA流速技术将一个动态模型拟合到数据中,以预测特定基因的 mRNA 分子数量变化速率。所有基因的变化速率定义了高维转录组空间中的梯度,并预测了分子状态的方向性(图 1a,下面板)。
RNA流速已被应用于解决发育生物学中细胞状态转变的基本问题以及扰动期间的问题。尽管 RNA 流速已被社区广泛采用,但各种方法,从基于线性模型到深度学习,在数据敏感性上存在差异,常常导致不一致或不正确的轨迹。鉴于这些局限性,Ancheta等人旨在通过探索不同方法产生的流速矢量差异,指导研究人员评估并选择最适合其数据的 RNA流速方法。

图1 不同 RNA流速方法在方向性预测上存在差异。a. RNA流速工作流程概述,以Velocyto模型为例。转录、剪接和降解的速率分别表示为α、β和γ。所有 RNA 速度模型都使用剪接(s)和非剪接(u)mRNA 计数作为模型输入,并预测细胞在转录组空间中的方向性。b. 五种 RNA 流速模型及其各自实施的方法总结。c. 小鼠胰腺(n = 3696 个细胞)在五种不同方法中的 RNA 流速预测 UMAP 嵌入,突出显示“导管”细胞类型(底部面板)中不同方向性的预测。d. 描述不同方法之间速度预测不一致和分歧的示意图:(1)邻域内单个细胞之间的一致性(彩色圆点代表单个细胞),以及(2)方法之间方向性的协议(方框之间的黑色箭头)
作者们通过分析局部一致性、方法一致性、驱动基因重叠以及测序深度鲁棒性,评估了五种 RNA 流速方法在三个发育数据集上的性能。总体而言,RNA 流速方法识别了已知的生物学轨迹和重要的驱动基因,每种方法在不同数据集和评估指标下表现出不同水平的性能。
本文旨在不评判哪种方法更优越,而是为科学家提供关于不同 RNA 流速方法的指导与见解。在各项指标中观察到许多方法结果的差异,因此建议将 RNA 流速作为假设生成工具,用于探索方向性、谱系和驱动基因,以便进行进一步的实验验证。这里提出的各种指标旨在使科学家能够选择最适合其数据集的方法。研究强调了实施最适合数据集的方法的重要性,因为观察到基于转录多样性和测序深度,不同方法的表现水平存在差异,并鼓励在识别用于进一步实验的轨迹时探索多种方法的结果。在评估的三个参数中,没有哪种方法表现优异。因此,始终建议验证 RNA流速预测。根据总结的评估指标结果,原始 RNA 流速模型 Velocyto 在两个类别中表现优异,在局部一致性方面表现中等。作为其他方法的原始方法,Velocyto 在比较框架中最为一致。局部一致性在不同细胞类型和方法之间存在差异。对于局部一致性高的细胞类型,五种方法都显示出相似的结果,这表明数据中的信号足够强,能够被不同的模型识别。在一些终末状态细胞类型(即肌肉、后脑、神经管)中,一致性较低,这可能是由于测量噪声或亚群异质性。许多方法使用指标来测量局部一致性来评估其性能,该研究结果突出了结合不同分析视角的价值。
在将各种方法与所有方法计算出的中位数向量进行比较时,不同数据集之间的一致性差异十分明显。由于胰腺数据集通常被用作 RNA流速方法的基准数据集,其他方法相对于 Velocyto(原始方法)的高性能可能表明该领域有所改进,也可能表明存在过拟合现象。在之前的基准测试研究中,各种方法在胰腺数据集上表现出高性能,这或许是因为它是一个更直接且特征更明确的谱系。UniTVelo 在斑马鱼数据集上方法一致性较低,但局部一致性较高,这可能是由于过度平滑造成的,因为该方法为所有细胞和基因拟合单个轮廓函数,并使用统一的潜在时间来推断样本中的动态变化。由于 UniTVelo 拟合的是径向基函数,在插值大量数据时可能会变得不稳定,推测其在胰腺数据集上的高性能可能是因为胰腺数据集的大小远小于斑马鱼数据集(胰腺数据集包含 3696 个细胞,而斑马鱼数据集分别包含 16035 个和 12914 个细胞)。 基于深度学习的 DeepVelo 方法在斑马鱼数据集上的方法一致性低于胰腺数据集。推测默认参数是针对特定训练集优化的,并且参数优化时,这些方法可能表现得更加准确,因为深度学习模型更为复杂。性能高度依赖于超参数的选择,并且所有方法都容易受到导致结果与先验假设一致的调整的影响。因此,建议将预测仅用作探索性工具。
需要注意的是,方法一致性测试用于衡量不同方法在给定数据集上的一致性程度。高一致性可能出现在底层谱系结构相对简单、多个方法能得出相似结果的区域。相反,低一致性可能反映多种可能性:(1)真实的谱系结构复杂或分支,(2)剪接信息嘈杂或不完整,(3)一个或多个方法做出了错误预测。因此,方法方向上的不一致应被视为进一步调查该轨迹的标志(评估生物学合理性、补充分析等),而不是任何特定方法低劣的直接证据。下游分析中驱动基因的鉴定对方法间速度计算的差异敏感,强调了在做出进一步实验决策前需要包含多个 RNA 流速预测的必要性。
通过减少读数数量来模拟的测序深度鲁棒性水平,因每种方法的模型类型而异。基于深度学习的 DeepVelo 方法对读数数量更敏感,因为图计算网络模型随着转录组信息的改变而变化,其图结构高度可变。Velocyto 对读数数量最为鲁棒;作为一种基于线性回归的模型,其性能更稳定。对于希望实施 RNA流速分析的科学家,建议在考虑最适合其数据的最佳方法时,应考虑测序深度。
这里报告的发现存在一些局限性:1) 数据集数量有限,仅包括两种细胞数量差异巨大的生物;2) 本研究并非涵盖所有当前的 RNA 流速方法,仅包括引用次数排名前 10 的方法中的 5 种;3) 所有比较均基于作者建议的默认参数,因为并未探索方法优化。虽然并未对所有 RNA流速方法进行全面综述,但该框架(https://github.com/czbiohub-sf/comparison-RNAVelo)为解决这些问题和应用新发布的技巧(尤其是基于深度学习的方法)提供了一个初步方法。
由于 scRNA-seq 目前的限制,仅靠短读长 mRNA 测序可能不足以描述这些细胞类型的分化动态,而额外的“组学”方法可以改进流速建模。例如,最近的方法将 RNA 测序与 ATAC-seq 结合,共同建模 RNA流速。其他单细胞技术,如长读长测序和检测单细胞测序中环境 RNA 的方法,可以增强 RNA 速度模型。长读长测序捕获所有剪接读数的能力以及基因组注释的改进,可能提供额外的转录组信息,从而更准确地用 RNA 流速预测细胞的未来状态。类似地,通过单细胞测序中的环境 RNA 检测方法识别 RNA 污染可以提升 scRNA-seq 数据的质量。综合来看,这些技术进步可以精炼剪接参数的估计,并导致更精确的流速预测。由于流速是一种预测性指标,其预测结果取决于所采用的方法,采用多种方法可以提供对转录组空间轨迹的见解,帮助我们理解潜在的生物学过程,并为进一步探索提供方向。
参考文献
[1] Ancheta S, Dorman L, Le Treut G, et al. Challenges and progress in RNA velocity: Comparative analysis across multiple biological contexts. PLoS Comput Biol. 2026;22(6):e1014303. https://doi.org/10.1371/journal.pcbi.1014303
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-29 10:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社