zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

scAMVIB:利用自适应多视角信息瓶颈进行多组学数据聚类

已有 455 次阅读 2026-1-31 13:46 |个人分类:科普|系统分类:科普集锦

scAMVIB:利用自适应多视角信息瓶颈进行多组学数据聚类 

在多细胞生物中,细胞多样性源自单个祖细胞,通过分子和遗传调控机制产生,尽管体细胞谱系之间存在相同的基因组。这种现象被称为细胞异质性,表现为不同分化细胞群体中独特的表型和功能状态。单细胞 RNA 测序(scRNA-seq)已成为一项变革性的基因组技术,能够在单细胞水平实现高分辨率的转录组分析,从而促进对细胞异质性的全面表征、新型细胞亚型的鉴定以及功能状态的探究。聚类分析作为一项基础的计算方法,为 scRNA-seq 数据集的无监督探索提供了必要基础,为后续生物学解释(包括细胞类型注释、差异表达分析和伪时间轨迹重建)奠定了基础。 

scRNA-seq 数据的积累为研究细胞类型及其功能提供了前所未有的机遇基于转录组分析,已开发出多种高效的算法。例如,SHARP 采用加权集成相似性元聚类方法,为不同样本(或样本对)分配不同的权重和聚类,从而提升聚类性能。scDASFK 将对比学习模块与自注意力机制相结合,增强特征异质性并提取生物学相关的模式,同时建立闭环反馈系统,通过聚类输出迭代优化编码器中的特征学习。scMOO 开发了一种多目标优化框架,考虑潜在的数据结构(水平、垂直和低秩结构),自动学习潜在的组合权重和模式,以实现更优的填充结果。尽管这些方法已取得显著成功,但单组学方法本质上局限于特定的分子层面,限制了聚类性能。尽管多模态单细胞技术取得了进展,但将跨模态相关性转化为预测框架仍然具有挑战性。 

近年来单细胞多组学聚类算法的进展表明,整合多模态数据克服了单模态方法的固有约束,从而产生在细胞聚类中提高了准确性和生物学保真度。值得注意的是,Cobolt 框架采用分层多模态变分自编码器(MVAE)架构来学习单细胞 RNA 测序和 ATAC 测序数据的联合表示,同时通过迁移学习实现跨实验平台的稳健和泛化性模态集成。scGDCC 算法采用图神经网络,通过整合细胞邻域信息,通过基于图的对比学习推导出模态特定表示。通过其双重对比校准,scGDCC 在多个尺度上对齐伪标签和特征相似性图,确保在多个组学层上保持一致的细胞类型分类。同时,scAHVC 通过多视图子空间聚类方法促进 scATACseq scRNA-seq 数据的联合分析。利用张量核范数正则化,scAHVC 推导出低秩表示,捕捉跨组学共识信息。当前的多组学聚类方法通常采用统一加权方案,忽略了维度架构中固有的跨模态变化。这既损害了聚类效果,也降低了生物学上的合理性。 

此外,当前的单细胞多组学聚类方法面临以下挑战:(i) 单细胞组学数据的高维性和极端稀疏性:单细胞组学数据总是具有 p,小 n的问题,即特征数量远远超过细胞数量。由于生物学上基因并非在每个细胞中表达,以及技术上的“dropout”事件(即转录本未被捕获),这种高维空间本质上具有稀疏性。因此,单细胞组学数据的稀疏性会掩盖潜在的生物学信号,增加计算负担,并提高过拟合的风险。(ii) 信息冗余与互补性的双重性:多组学数据提供了更全面的细胞状态视图,但这些信息存在于冗余与互补性的谱系之间。某些生物学信息在各个模态中是一致的。虽然这可以加强关系,但特征的简单拼接可能导致冗余信息主导模型,浪费了与相关性相关的容量。与此同时,每种模态也包含其他模态中不存在的信息。主要的分析挑战在于区分并策略性地利用这些互补关系,同时抑制冗余,以构建细胞的非冗余表示。 

受多视图聚类(MVC)和信息瓶颈(IB)原理的启发,Tian等人开发了 scAMVIB (图1https://github.com/ZZUzy/scAMVIB)来解决单细胞多组学数据聚类任务中提到的挑战。scAMVIB 通过引入基于最大熵的自适应加权方案,直接解决了均匀加权的局限性。该机制根据每个组学视图的信息含量动态分配权重,从而减轻由数据质量和维度差异引起的偏差。为了处理信息的双重性,scAMVIB 采用多视图 IB 框架。IB 目标自然地压缩冗余信息,同时保留来自每个视图的任务相关、互补信号。此外,为了增强捕获组学间关联的能力,scAMVIB 采用相似性网络融合(SNF)构建融合样本相似性网络。该网络用于生成增强特征矩阵,该矩阵明确编码跨组学关系,补偿标准降维过程中的信息损失,并为聚类提供更稳健的基础。全文主要贡献如下: 

image.png

1 scAMVIB 的架构,其中(A)在组学融合过程中,SNF 衍生的 SSN P(c) 与特征选择矩阵 S 的矩阵乘法产生一个增强的特征矩阵 S,将 SSN 中的跨组学相关性整合到融合表示中,以及(B)多组学数据和融合的组学特征矩阵在基于多视图 IB 的聚类框架中被处理为多视图输入 

1)一种新型 MVC 框架:介绍了 scAMVIB,这是一个灵活的框架,明确利用单细胞多组学视图之间的互补信息来提高聚类准确性。 

2)一种自适应、信息感知的加权机制:scAMVIB 结合了基于最大熵的策略,动态地为每个组学视图分配权重,与其信息含量成正比,确保平衡且具有生物学意义的整合。 

3)该框架由一个顺序迭代优化算法支持,该算法在信息瓶颈原理内高效解决细胞分配问题,保证鲁棒的聚类划分。 

4)在单细胞多组学数据集上的结果证实了 scAMVIB 的优越性,提高了聚类准确性和对数据异质性的鲁棒性。 

参考文献

[1] Tian Z, Wei X, Lou Z, Teng Z, Fu S. Adaptive multi-view information bottleneck for multi-omics data clustering. Brief Bioinform. 2026 Jan 7;27(1):bbaf717. https://doi.org/10.1093/bib/bbaf717 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1520613.html

上一篇:CoFormerSurv:用于多组学生存分析的协同Transformer
下一篇:自闭症谱系障碍中的统计学习研究进展
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-1 23:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部