zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

Harmony2:整合大型、复杂的单细胞数据集

已有 201 次阅读 2026-4-11 10:51 |个人分类:科普|系统分类:科普集锦

Harmony2:整合大型、复杂的单细胞数据集 

单细胞RNA测序已成为分析健康和病变人体组织中细胞类型和状态的基础检测方法,目前已有来自超过1万名捐赠者的1亿多条数据公开可用。将这些数据集整合到统一的参考图谱中,需要利用计算算法来消除技术差异,同时保留生物学结构。随着图谱规模和异质性的增长,整合过程必须平衡两个相互冲突的目标:既要确保不同批次样本间共享细胞状态的一致性,又要保留真实的生物学差异。 

整合方法通常面临两种截然相反的失效模式。整合不足会导致技术变异无法得到校正,而整合过度则会将生物学上不同的细胞类型或状态合并在一起,尤其是在包含不重叠细胞群的异质数据集中。目前已提出多种方法,包括基于 SeuratCCA rPCA 的整合、矩阵分解框架(例如 LIGER)、基于回归的校正方法(例如 ComBat-seq)、深度生成模型(例如 scVI)以及基于回归的嵌入方法(例如 Harmony)。尽管这些方法推动了该领域的发展,但如何在批次校正和生物结构保留之间取得平衡仍然是一个难题。在图谱规模下,这些挑战尤为突出,因为多样化的数据集可能质量参差不齐,并且可能代表不同的细胞类型。同时,大型数据集也带来了巨大的计算需求,要求方法能够高效地应对细胞数量和批次数量的增长。 

Harmony 因其速度和准确性而被广泛采用。然而,要扩展到现代图谱规模的数据集,需要在计算效率和对异构批次结构的鲁棒性方面都进行改进。最近,Patikas等人介绍了 Harmony2(图1https://github.com/immunogenomics/harmony),旨在应对这些挑战。Harmony2 集成了优化的数据结构,包括混合稀疏-稠密矩阵后端和用于箭头结构回归问题的闭式求逆,从而实现了细胞和批次层面的线性扩展。为了提高在异构环境下的鲁棒性,Harmony2 引入了自动批次剪枝和动态参数调优,以降低异常值或非重叠群体的影响。在大规模基准测试和真实世界图谱上,作者们证明了 Harmony2 能够高效扩展,缓解过度整合和整合不足的问题,并能够更好地检测罕见细胞群和疾病相关细胞群。 

image.png

1 Harmony2 能够高效地扩展单元和批次规模,同时保持集成质量。(a) 使用 100 万个细胞,批次数量递增时,Harmony1 Harmony2 的内存性能 (a) 和运行时间性能 (b)。曲线代表对观测数据点的线性回归拟合。(c,d) 使用 800 个批次,细胞数量递增时,内存性能 (c) 和运行时间性能 (d)。曲线代表线性回归拟合。(e) 箱线图显示了在 Harmony2 集成之前(PCA)和之后,完整 Tahoe-100M 数据集中归一化的单细胞板熵。点代表每个细胞系的平均值,表明集成后板混合程度的增加。(f) Harmony2 集成后 Tahoe-100M 数据集的 UMAP 嵌入,颜色代表 47 个细胞系。UMAP 计算和可视化使用了从完整的 Harmony 校正嵌入中抽取的 1000 万个细胞子集。标签指示位于每个细胞系簇质心的细胞系标识符 

参考文献

[1] Nikolaos Patikas, Hongcheng Yao, Roopa Madhu, Soumya Raychaudhuri, Martin Hemberg, Ilya Korsunsky. Integration of large, complex single-cell datasets with Harmony2  bioRxiv 2026.03.16.711825; doi: https://doi.org/10.64898/2026.03.16.711825 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1529901.html

上一篇:causarray:在单细胞转录组数据中发现因果关系
下一篇:单样本网络建模的挑战与机遇
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-11 14:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部