||
DANCE:用于单细胞分析的深度学习库和基准测试平台
单细胞分析技术近年来发展迅速,从单模态分析(RNA、蛋白质和开放染色质),到多模态分析,再到空间转录组学。这一领域的快速革命促进了计算方法数量的爆炸式增长,尤其是基于机器学习的方法。然而,当前方法的多样性和复杂性使得研究人员很难重现原始论文中所显示的结果。主要的挑战包括没有公开可用的代码库、超参数调优以及编程语言之间的差异。此外,系统的基准程序对于全面评估方法是必要的,因为大多数现有工作只报告了它们在有限数据集上的表现,并与不充分的方法进行了比较。因此,迫切需要一个通用的、可扩展的、具有全面基准数据集和度量评估的基准测试平台,以便轻松地再现除现有方法之外的任何算法,即通过最小的努力(例如,只有一个命令行)跨流行基准数据集的不同任务。考虑到深度学习方法,如图神经网络(GNN)在单细胞分析中显示出有希望的性能,这些工具的定制接口在现有软件包中很大程度上是缺失的。最近,Ding等人提出的DANCE系统(https://github.com/OmicsML/dance)不仅可以作为基准平台,还可以提供定制的深度学习基础设施接口,帮助研究人员方便地开发他们的模型。
DANCE(图1)作为一个深度学习库和基准平台,以促进单细胞分析的研究和开发。DANCE提供了一个端到端工具包,以促进单细胞分析算法的开发和不同基准数据集的公平性能比较。DANCE目前支持3个模块,8个任务,32个模型和21个数据集。DANCE的一大亮点是模型的可重复性。现有方法的不同编程语言和后端框架使得系统的基准评估对公平的性能比较具有挑战性。在这种情况下,DANCE使用Pytorch、Deep Graph Library (DGL)和PyTarch Geometric (PyG)作为主干框架,在基于Python语言的统一开发环境中实现所有模型。此外,将所有基线制定为通用的拟合-预测-得分范式。从再现性的角度来看,对于每个任务,每个实现的算法都通过网格搜索在所有收集的标准基准上进行微调,以获得最佳模型,并且相应的超参数仅保存在一个命令行中,以实现用户再现性。此外,DANCE还为每个模型提供了一个示例作为参考。
图1 DANCE平台的用户视角。a基于DANCE平台的单细胞组学分析管道概述任务的基准数据集被组织并提前缓存在云端供用户使用。这些数据包括scRNA-seq数据,多模态单细胞数据,如Chromium单细胞多组ATAC +基因表达和转录组和表位的细胞索引(CITE-seq),以及空间分解的转录组数据。从云端自动下载数据后,执行DANCE内置的预处理和图构建(图神经网络模型开发所需)。 随后,用户可以通过DANCE中定制的深度学习模型模块建立自己的模型,或者利用在DANCE中重新实现的最先进的深度学习模型来完成下游任务。b DANCE中当前支持的下游任务
参考文献
[1]Ding J, Liu R, Wen H, et al. DANCE: a deep learning library and benchmark platform for single-cell analysis. Genome Biol. 2024;25(1):72. Published 2024 Mar 19. doi:10.1186/s13059-024-03211-z
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 05:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社