zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CEDR:集成降维实现鲁棒的共识癌症亚型分类

已有 161 次阅读 2026-6-7 11:18 |个人分类:科普|系统分类:科普集锦

CEDR:集成降维实现鲁棒的共识癌症亚型分类 

癌症是一种高度异质性疾病,源自同一组织且具有相同组织学等级和病理阶段的肿瘤,在不同患者中可能表现出不同的分子机制。通过共享特征定义分子亚型,并揭示与临床结果相关的亚型特异性改变,对于靶向治疗、改善预后和个性化治疗策略至关重要。 

随着高通量技术的发展,大量组学数据已被积累,利用多组学数据整合实现癌症患者准确亚型分类至关重要。然而,多组学整合面临关键挑战:(i) 样本数量相对于每个组学层的高维度的比例较小;(ii) 数据集之间在尺度、噪声和批次效应上的差异;(iii) 不同组学数据类型之间互补但异质的信息性质。因此,已提出多种整合多组学数据的方法。早期整合通过将组学矩阵串联成一个矩阵并应用单组学聚类,代表了一种直接的方法。然而,它存在缺点,包括对具有更多特征的组学存在潜在偏差、忽视不同数据分布以及增加维度。后期整合涉及独立对每个组学进行聚类,将得到的聚类结果结合以产生统一的聚类结果。然而,在整合过程中仅依赖聚类结果可能会忽略单个组学中存在的微弱信号。统计建模通过建模概率分布来整合所有组学数据,通常通过贝叶斯先验或概率函数引入生物学知识,尽管参数估计可能具有计算挑战性,通常需要启发式方法。样本相似性整合依赖于样本之间的相似性或距离来执行聚类,但用原始特征解释结果可能很困难。基于降维的方法假设存在内在的低维结构,通常与聚类数量一致,能够通过将数据映射到一个统一的低维空间,解释主要聚类特征,并减轻“维度灾难”,以增强模式提取,同时减少噪声和冗余。 

降维方法大致可分为线性方法和非线性方法。线性方法,如主成分分析(PCA)、独立成分分析(ICA)和非负矩阵分解(NMF),被广泛用于高维生物数据的特征提取。然而,线性方法依赖于线性假设,这限制了它们捕捉基因之间复杂非线性相互作用及其自调控的能力。因此,为了更好地保留非线性结构,人们开发了非线性技术,包括 t 分布随机邻域嵌入(t-SNE)、统一流形逼近与投影(UMAP)、等距映射(Isomap)和核 PCA。随着深度学习技术的发展,自动编码器(AE)将高维数据压缩到低维子空间,从而能够从高维数据中提取非线性模式。然而,AE 对输入数据中的噪声非常敏感,由于其缺乏鲁棒性,在实际应用中从高维多组学数据中提取最有信息量的特征变得具有挑战性。相比之下,先进的自编码器模型,如去噪自编码器(DAE)和稀疏自编码器(SAE),提供了更强的鲁棒性和特征提取能力,有效解决了这些局限性。降维方法通常分别应用于每个组学数据集,然后将生成的特征连接成一个矩阵进行聚类。为了进一步应对异常值处理和聚类鲁棒性的挑战,可以采用优化调谐鲁棒非正规最大似然估计(OTRIMLE)聚类方法。该方法引入噪声分量来捕获异常值和噪声,通过优化其值确保模型的非噪声部分接近高斯混合分布,从而实现对高噪声和异常数据的鲁棒聚类。 

然而,基于不同降维方法的聚类结果依赖于不同的假设和数据特征,导致不同方法对癌症亚型的识别结果不一致。一种直观的解决策略是开发集成方法,整合多个基础方法的结果。 

在本文中,Cao等人采用了一种基于统计的共识聚类模型——聚类集成混合模型。这种多项式混合框架有效地管理了不一致的聚类数量、跨方法的标签不匹配以及某些解决方案中的缺失标签。通过结合降维、OTRIMLE 和聚类集成混合模型的优势,提出了一种用于多组学数据集成的集成降维共识亚型方法(CEDR)。CEDR (图1https://github.com/biostatXu/CEDR)采用四种降维技术处理多组学数据,包括 DAESAEPCA ICA,分别生成多样化和信息丰富的特征表示。OTRIMLE 应用于每种表示以获得鲁棒的亚型结果。这些结果随后使用聚类集成混合模型进行整合,生成具有更高鲁棒性和一致性的共识亚型解决方案。 

image.png

1 CEDR 模型概述。CEDR 工作流程整合了三种组学数据类型,包括 miRNAmRNA DNA 甲基化,并应用四种降维技术(DAESAEPCA ICA)提取信息特征。然后使用 OTRIMLE 对降维数据进行鲁棒聚类,生成多个基础聚类,作为基于混合模型的集成框架的输入。在该集成中,采用 EM 算法进行最大似然估计,BIC 指导选择最佳共识聚类数量,最终得到将患者分层的共识聚类 

通过将所提出的 CEDR 方法与基于 DAESAEPCA ICA 的聚类方法进行比较,评估了该方法的亚型性能此外,还包括基于相同基础聚类方法的一致性聚类集成方法簇分析(COCA),以及 SNFCIMLRLSGMCMOSD PartLES 等最先进的数据整合方法。将 CEDR 方法应用于两个真实世界数据集,分别是来自癌症基因组图谱(TCGA)和中文胶质瘤基因组图谱(CGGA)的透明细胞肾细胞癌(ccRCC)和低级别胶质瘤(LGG)。结果表明,与其他方法相比,CEDR 在识别 ccRCC LGG 患者分子亚型方面表现更优,与模拟结果一致。后续对关键分子特征和通路进行的生物学分析为这两种癌症提供了有价值的机制见解。 

参考文献

[1] Cao H, Xu Z, Lin S, Du G, Wang T, Wang J, Yang X, Fang R, Luo Y, Zeng P, Yu H, Zhang Y, Cui Y. CEDR: robust consensus cancer subtyping with multi-omics data via ensemble dimensionality reduction. Brief Bioinform. 2026 May 4;27(3):bbag232. https://doi.org/10.1093/bib/bbag232 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 



https://blog.sciencenet.cn/blog-571917-1538230.html

上一篇:scMarkerGene:细胞类型特异性标记基因识别
下一篇:在基因调控网络中探测转录因子子集



    
收藏 IP: 39.128.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-7 21:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部