||
RNA流速推断算法基准测试
高通量测序的快速发展,特别是单细胞 RNA 测序和空间组学,为研究细胞动态如分化、异质性和细胞周期等开辟了新途径。传统的轨迹推断方法通过施加预定义的结构假设来重建这些动态,例如线性结构、树状结构或基于不连接图的拓扑结构。这些轨迹推断方法仅基于基因表达的静态快照,通常需要先验生物学知识来指定发育起点和终点。RNA流速通过直接从单细胞 RNA 测序中推断转录变化的方向和速率来解决这个问题,通过模拟未剪接前体转录本与其剪接成熟对应物之间的平衡来预测每个细胞的未来状态。由于流速是局部估计且独立于任何全局轨迹模型,因此它不依赖于预定义的谱系结构,并且对细胞状态空间的底层拓扑保持无知。结果,RNA 流速能够适应多种轨迹拓扑,包括线性路径、分叉、循环以及更复杂的图。近期研究将概念扩展至转录本丰度之外,通过多模态整合染色质可及性、联合 RNA-蛋白测量以及代谢标记(这些标记提供时间基准)来实现。在空间转录组学中,流速向量可以映射到组织坐标上,以揭示原位形成的模式、形态发生流、神经元迁移和肿瘤-基质相互作用。因此,RNA流速不仅用于绘制发育和谱系承诺过程,还用于探究疾病进展、免疫激活和耗竭、细胞周期动力学、组织再生和治疗反应,为单细胞状态图谱增添了时间感知维度。
基于这一基础,各种流速推理方法已出现在不同模态中,并现已成为端到端单细胞分析的组成部分。在多个已发表的流程中,包括 bollito、CellexalVR 以及awesome-single-cell(https://github.com/seandavi/awesome-single-cell),RNA 流速被视为核心分析层之一。虽然 RNA 流速方法在算法、先验和输出上存在差异,但有两个特征最清晰地将它们区分开来:它们采用或学习的动力学范式,范围从稳态假设到完整的动态推理,以及它们是仅仅在固定嵌入上投影局部方向,还是重建一个能捕捉分支和其他复杂轨迹拓扑的全局矢量场。早期的流速工具依赖于稳态假设,通过剪接-未剪接平衡估计方向,它们效率高但易受归一化和噪声影响,且在瞬时动力学或复杂分支时常常失效。更新的方法通过动态模型放宽稳态约束,重建更平滑的矢量场和命运概率,并整合多模态或空间数据,从而提供更稳健的方向性和更丰富的下游推断。
鉴于流速推断方法的多样性,定量评估其准确性、可扩展性、鲁棒性和可用性至关重要。尽管已有少数基准研究尝试解决这个问题,但它们缺乏基于大量具有不同生物学背景、轨迹拓扑和样本大小的数据集的速度推断方法的全面比较。这一差距构成了一个重大挑战。对于新用户来说,他们面临着众多 RNA 流速推断方法的选择,而缺乏明确指导来帮助他们确定哪种方法最适合其特定的分析需求。此外,对现有方法的优缺点进行系统评估,对于指导未来的方法论发展和确定当前最先进技术的关键改进领域也是必要的。
因此,最近,Huang等人对 29 种流速推理方法进行了基准测试,包括 20 种 RNA 流速推理方法、7 种多组学流速推理方法和 2 种基于流速的细胞周期推理方法,在 176 个单细胞数据集上进行了测试。性能评估采用四个互补维度中的 17 个指标:准确性、稳定性、可扩展性和可用性(图 1)。作者们发现:现有流速方法之间存在显著互补性,不同方法在不同数据特征下表现最佳。为方便实际方法选择,作者们开发了一个公共知识库,包含基准测试结果和指南(https://relab.xidian.edu.cn/RNAVelocity/),提供每种方法的详细性能及其比较。本文的结果突显了当前方法的某些挑战,评估策略可用于推动开发新的工具,以在日益复杂的应用场景中准确推理流速。

图1 RNA 流速推断的数据集、方法类别和基准测试指标概述。左上角,本研究使用的数据集汇编。右上角,基准测试的方法类别,包括 RNA 流速推断、基于 RNA 流速的细胞周期推断和多组学流速推断(蛋白质流速、染色质流速和空间流速)。中间,按流速测量和聚类测量分组准确度指标。底部,额外的评估维度。
参考文献
[1] Kexin Huang, Yu Zhou, Tiangang Wang, Xiao Li, Xinlong Zhao, Xi Liu, Liyu Huang, Xiaobo Zhou, Jiajia Liu. Benchmarking algorithms for RNA velocity inference bioRxiv 2026.01.03.697314; doi: https://doi.org/10.64898/2026.01.03.697314
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-23 12:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社