||
CoFormerSurv:用于多组学生存分析的协同Transformer
生存分析利用多个解释变量来预测事件发生的时间,这一直是生物医学研究领域的热门话题。生存分析的主要挑战是事件时间数据高度偏斜,有些事件发生在中位数之外,以及因失访或研究终止而导致的审查现象。临床上,癌症患者的生存分析仍主要依赖低维度特征(如年龄和性别等人口统计因素,以及肿瘤特征如组织学分级和 T/N/M 分期),以探讨多重预测变量对生存结局的影响。随着高通量技术的快速发展,多组学数据量的不断增长,例如基因表达和微小 RNA 表达谱正越来越多地被用来预测患者的临床结局。这为进行更精确的个性化预后预测研究提供了新的技术支持和研究视角。
在传统生存分析中,非参数 Kaplan-Meier(K-M)估计器、半参数 Cox 比例危害模型(Cox-PH)和参数加速失效时间(AFT)模型构成了三种基本的分析方法。K-M 估计器直接从生存数据估算生存函数,而不假设生存时间的分布或风险函数的形式,但无法分析或量化效应关于生存时间的解释变量。Cox-PH 模型假设患者间风险比恒定,且不需对生存时间分布作出特定假设,这为分析复杂生存数据提供了卓越的灵活性和广泛的适用性。与 Cox-PH 模型相比,AFT 模型依赖回归分析来模拟对数存活时间的协变量效应——这一过程本质上需要分布假设(例如 Weibull 或对数正态)。除了上述三种方法外,传统的机器学习方法也陆续被引入用于时间到事件数据分析,如随机森林和支持向量回归。近年来,深度学习因其卓越的性能在生存分析中日益受到重视。例如,将深度神经网络与 AFT 模型结合,提出了深度生存分析方法 DeepAFT。与 DeepAFT 方法不同,DSM 方法学习多个潜在生存分布通过层级图形模型。通过将这些潜在生存分布与加权方法整合,DSM 方法能够更好地适应生存数据的异质性。
在生物医学领域,高通量测序技术的进步产生了大量高维组学数据。基于组学的生存分析方法可以揭示分子特征对癌症预后的影响,阐明肿瘤基因和通路层面的机制,为个性化精准治疗提供证据。这些方法大致可分为单组学和多组学生存分析。单组学生存分析侧重于研究特定生物标志物(如基因组数据、转录组数据或蛋白质组数据)与患者预后之间的关联。例如,Cox-nnet 方法分析了神经网络中隐藏层节点特征与患者存活风险之间的关系,揭示了显著影响癌症预后的关键基因和生物通路,从而揭示了丰富的生物学信息。考虑到在有限的高维基因表达数据训练下,深度学习模型中过拟合的挑战,VAECox是一种两阶段迁移学习模型,先对无生存标记的多癌症 RNA-seq 数据预训练 VAE,然后转移所学权重以初始化癌症特异性生存预测模型。近年来,图卷积网络(GCN)在多个领域取得了显著成功,包括生存预测,因其能够整合节点属性和图结构信息。例如,AGGSurv 方法首先通过从高维 RNA-seq 数据中随机抽样特征子集生成多样化稀疏图结构,然后学习脊回归-Cox 模型以整合这些多重变量的预测GCN,最终提升了生存预测表现。
多组学生存分析方法整合了来自不同来源的信息,帮助从多维度分析疾病的异质性和复杂性,从而实现更准确的患者结局预测,这对推动精准医疗的发展具有重要意义。多组学生存分析方法可分为两类:基于特征融合的方法和基于图融合的方法。基于特征融合的方法通过学习组学间特征相互作用,有效捕捉多个组学间互补信息,显著提升患者生存结果的预测性能。例如,HFBSurv 方法深入挖掘组学特异性信息以探索组内特征依赖关系,并通过组学特异性和跨组学注意分解双线性模量化组学间特征相互作用,从而提升生存预测的准确性。与特征融合策略相比,基于图融合的方法倾向于在不同组学中共享和传播互补的邻域信息。例如,GCGCN 方法通过整合来自不同组学的多个样本相似矩阵,可以更准确地揭示样本间的邻域关系,用于生存分析。基于此,提出了 FGCNSurv 方法,该方法同时融合GCN 中的特征和图表,使得对多组学数据之间互补关系的探索更为全面,以预测生存。
近年来,Transformer架构已成为多个领域的主导范式。尽管 Transformer 架构在生存分析中展现出有希望的成果,但如何有效利用 Transformer 架构进行多组学生存分析,以全面提取不同组学间互补信息以提升生存预测性能,仍不明确。最近,Wen等人提出了一个协作的 Transformer 多组学生存分析框架 CoFormerSurv(图1,https://github.com/LiminLi-xjtu/CoFormerSurv),包含两种互补的 Transformer 架构:组间Transformer和样本间图 Transformer。组间Transformer通过多头自我注意力机制学习多个有意义的跨组学特征。样本间图 Transformer 将融合图的空间信息从多个组学编码到 Transformer 架构中,以更有效地建模多组学样本间的邻域关系。通过集成组间Transformer和样本间图 Transformer,协作Transformer能够生成更具信息量和判别力的多组学特征,用于基于 Cox-PH 的生存分析。对多个真实世界数据集的评估表明,作者们提出的协作Transformer通过结合组间和样本间视角,表现优于单一Transformer架构和现有的生存预测方法。

图1 CoFormerSurv 模型的架构概述。组学间Transformer采用多头自注意力机制,识别多组学数据中的高阶交互特征。采样间图 Transformer 将融合图的结构信息从多个组学编码到 Transformer 架构中,聚合从组内组学 Transformer 提取的多组学特征,以学习更具表现力的样本嵌入。协作Transformer整合了组间变换器和样本间图变换器,生成更具信息量且具辨别性的多组学特征,用于与 Cox 比例风险模型的生存分析
参考文献
[1] Wen G, Li L. CoFormerSurv: Collaborative transformer for multi-omics survival analysis. PLoS Comput Biol. 2026 Jan 7;22(1):e1013875. https://doi.org/10.1371/journal.pcbi.1013875
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-29 11:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社