||
挖掘稳定生物标志物的因果图神经网络
早期诊断在临床医学中发挥着至关重要的作用,通过促进及时干预和改善治疗效果,从而提高患者的生存率。生物标志物——定义为可量化的分子指标,用于反映生物体的生理或病理状态——是临床诊断的基本工具。作为“分子信使”,它们在疾病机制与临床应用之间架起了关键桥梁。近年来,分子生物学和基因组技术的深入研究进一步提升了生物标志物的重要性,推动了从传统形态学评估向精准分子分型的转变。这一转变聚焦于 mRNA 和 miRNA 等分子生物标志物,它们能够识别疾病进展中涉及的关键基因和信号通路。这些见解支持靶向治疗的选择、患者分层和预后评估。大量研究强调了这些分子生物标志物的转化价值。 例如,基于血浆的三种 miRNA(miR-21、miR-29a 和 miR-92a)的标志物对结直肠癌的早期无创检测具有高灵敏度和特异性。基于血浆外泌体(EV)的 mRNA 组合,可有效预测胰腺导管腺癌患者的总生存期。循环中的 MTBRtau243 蛋白水平能准确反映致病性 tau 聚体的脑内积累,并与阿尔茨海默病(AD)的严重程度相关,将血浆 MTBRtau243 确立为量化 AD 中 tau 病理的关键生物标志物。总体而言,这些研究表明生物标志物的识别和表征在推进临床诊断方面具有关键作用,对提高诊断准确性、指导治疗策略以及最终改善患者预后具有重要意义。
RNA-seq 技术能够对全基因组范围内的 RNA 表达水平进行定量分析,为潜在生物标志物的识别提供了一个强大的平台。目前已有多种计算方法从 RNA-seq 数据中识别生物标志物,主要分为三种类型:包装器方法、嵌入式方法和过滤方法。然而,近年来研究越来越强调过滤方法和嵌入式方法,这反映了它们在该领域的日益重要性。
过滤方法基于数据的内在特征评估特征重要性,通常比包装方法具有更高的计算效率。代表性例子包括多簇特征选择(MCFS)、基于正交最小二乘法的快速特征选择(Fastcan)和深度特征筛选(DFS)。嵌入式方法通过将特征选择集成到模型训练过程中,在过滤和包装方法之间取得平衡,从而结合两种范式的优势。一个值得注意的例子是对比特征选择(CFS-master),它代表了这一类别,尽管在实际特征选择任务中,其表现与理论预期结果相比存在不足。大多数现有方法的一个关键局限性是它们主要依赖于疾病表型和分子特征之间的相关性,从而无法区分真正的因果关系与混杂关联。这一局限性降低了生物学可解释性,特别是在癌症和神经退行性疾病等复杂疾病中,其中非线性基因相互作用和未测量的混杂因素使得生物标志物的准确识别和因果推断变得复杂。为了应对这一挑战,研究者们开发了一种阿尔茨海默病生物标志物发现的因果推断方法,旨在从复杂的生物混杂因素中增强对真实因果关系的检测。然而,这种方法存在一些局限性:通过多元回归推导的倾向得分本质上仅限于捕获共调节信息,而忽略了跨调节效应——由中间分子介导的间接调节。这一局限性降低了倾向得分估计的准确性,并限制了该方法封装阿尔茨海默病基因调控网络全部复杂性的能力。
最近,Lan等人开发了一种将图神经网络(GNN)与因果推理相结合的新型方法(图1,https://github.com/32713271/Causal-Graph-Neural-Networks-for-Mining-Stable-Disease-Biomarkers),用于分析高维生物数据。该方法包含三个步骤:(1)调控网络构建:创建一个基因调控图,其中节点代表基因,边表示基因共表达关系,边权重反映调控强度;(2)三层 GNN 的倾向评分:该模型整合最多三层邻域,以利用跨模块的跨调控信号,根据高维图嵌入协变量生成节点级倾向评分,从而估计处理概率;(3)平均因果效应估计:利用这些倾向性估计每个基因对表型的平均因果效应。然后通过平均因果效应对所有基因进行排序。

图1 方法框架。步骤 1:构建基因调控网络;步骤 2:通过图神经网络计算倾向得分;步骤 3:计算每个基因的平均因果效应
实验结果表明,该方法在显著减少特征集的同时,实现了更高的准确率和 F1 分数。此外,因果估计步骤提供了在多次运行和不同数据集上更稳定、可重复的生物标志物,突出了该方法在生物标志物发现中用于精准医疗应用的效率、可扩展性和适用性。
参考文献
[1] Chaowang Lan, Jingxin Wu, Yulong Yuan, Chuxun Liu, Huangyi Kang, Caihua Liu. Causal Graph Neural Networks for Mining Stable Disease Biomarkers. 2025, arXiv:2511.13295v1, https://arxiv.org/html/2511.13295v1
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-19 18:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社