phenome的个人博客分享 http://blog.sciencenet.cn/u/phenome

博文

从 DNA 甲基化到个体化长寿方案:DeepoMe首个面向衰老的世界模型工具上线github

已有 399 次阅读 2026-6-1 10:36 |个人分类:世界模型|系统分类:科研笔记

摘要:本文介绍一种将强化学习中"世界模型"概念引入生物医学领域的框架——SteeraMed。该框架以 DNA 甲基化数据为输入,通过 PPI 网络模块级别的失调分析,为个体患者生成可审计的四层药物证据链。在衰老、类风湿关节炎和抑郁症三个回顾性队列上进行了阳性对照验证。

1. 研究背景

衰老研究正在经历从"标志发现"到"轨迹干预"的范式转变。两个重要的方法论进展为这一转变奠定了基础:

表观遗传时钟(Horvath, Genome Biology, 2013; Hannum et al., Molecular Cell, 2013)使精确量化个体生物学年龄成为可能,但"测衰老"仅解决了诊断问题,更核心的挑战在于"干预衰老"——如何将失调的分子状态拉回年轻方向。

Hallmarks of Aging 框架(López-Otín et al., Cell, 2013,单篇引用超 1.5 万次)系统归纳了衰老的分子机制。该框架最初提出 9 大标志,2023 年更新版(Hallmarks of aging: An expanding universe, Cell, 2023)进一步扩展至 12 大标志:基因组不稳定、端粒损耗、表观遗传改变、蛋白质稳态丧失、营养感知失调、线粒体功能障碍、细胞衰老、干细胞耗竭、细胞间通讯改变,以及新增的慢性炎症、生态失调和自噬受损。

然而,从 Hallmarks 框架到个体化干预之间存在方法论空白。Hallmarks 描述的是群体层面的衰老机制,而临床干预面临的是 N-of-1 问题:不是问"群体平均怎么样",而是问"对某个具体个体,哪种干预最可能有效"。

2. 生物医学世界模型的概念2.1 从强化学习到生物医学

"世界模型"(World Model)是强化学习领域的核心概念(Ha & Schmidhuber, NeurIPS, 2018),指能够模拟环境动态、预测不同行动后果的内部模拟器。其核心能力在于反事实推理(counterfactual reasoning):"如果我采取行动 A,环境将如何变化?"

将这一思路迁移到生物医学领域,可以构建如下映射:

  • 状态表示(State Representation):以 DNA 甲基化数据量化个体在 50 个生物学通路模块上的失调程度

  • 动作模拟(Action Simulation):在 PPI 网络上推演"如果施用某化合物,哪些失调模块会被纠正"

  • 可审计推理(Auditable Reasoning):生成四层可追溯的证据链,而非黑箱输出

2.2 与现有方法的区别

维度

传统系统生物学 / AI 药物发现

生物医学世界模型

分析单位

群体均值

个体 (N-of-1)

推理方向

前向(药物→效果)

反向(失调→纠正药物)

输出

药物重定位候选 / 通用指南

四层个体化证据链

置信度评估

临床试验统计检验

Bootstrap 重采样置信度

数据整合

PPI / 基因组 / 药理学

甲基化 + PPI + 化合物-靶点

关键区别在于推理方向:传统 AI 药物发现(如分子对接、深度学习药物筛选)从前向预测"这个药物可能有什么效果",而世界模型从反向推理"这个个体的分子状态偏离了多少,哪些化合物能纠正偏离"。

3. 方法框架:四层证据链

SteeraMed 框架的核心输出不是单一的药物排名,而是一条四层可审计的证据链:

Layer 1: PPI 模块扰动分析  ← 个体生物学状态如何偏离正常? Layer 2: 可驭性对齐评分    ← 哪些化合物能纠正失调模块? Layer 3: 机制路径追溯      ← 纠正作用的分子机制是什么? Layer 4: Bootstrap 置信度  ← 推理结果有多可靠?3.1 Layer 1:PPI 模块级失调检测

采用 MSigDB Hallmark 50 基因集(Liberzon et al., Cell Systems, 2015)作为功能模块定义。该基因集包含 50 个精炼的生物学通路基因集,涵盖衰老相关通路(炎症反应、凋亡、氧化磷酸化等)、癌症信号(p53 通路、MYC 靶点等)、免疫调控(TNFα 信号、补体系统等)和代谢过程(糖酵解、脂肪酸代谢等)。需要指出,MSigDB 的"Hallmark"命名指代 50 个核心生物学通路,与 López-Otín 等提出的衰老 Hallmarks 框架(12 大标志)是不同的概念体系。

具体流程:

  1. 对每位患者,计算 N-of-1 Delta 向量:Δ_i = x_i − x̄_matched,匹配对照按年龄(±5 岁)和性别选取

  2. 将基因级 Delta 值映射到 PPI(蛋白质-蛋白质相互作用)网络模块上(数据来源:STRING v12.5)

  3. 逐一评估全部 50 个模块的失调状态,标注每个失调模块对应的生物学过程

模块级分析的优势在于鲁棒性:在逐步加入高斯噪声的实验中,单基因表示在噪声水平 σ=0.2 时药物回收率即显著下降,而 PPI 模块级表示在 σ=0.5 时仍保持高于基线的回收率。

3.2 Layer 2:可驭性对齐评分(SA Score)

对每个失调模块,计算"可驭性对齐分数"(Steerability Alignment Score, SA Score),衡量化合物靶点基因与失调模块的匹配程度。

SA Score 的统计学本质是一个 Welch-type 对比统计量:比较化合物靶点基因与非靶点基因在失调模块中的甲基化差值。SA 越高,说明该化合物的靶点越精准地命中了失调模块。

化合物-靶点数据来自 STITCH 数据库(CC BY-NC,学术用途),覆盖 FDA 批准药物、营养素、天然产物等多个类别。

3.3 Layer 3:机制路径追溯

对每个候选化合物,追溯其作用机制路径:化合物靶点 → PPI 网络邻居 → Hub 基因 → 对应的功能模块。例如:"烟酸 → NAMPT/NAPRT → NAD+ 代谢模块 → Loss of NAD+"。

这一层使推理过程可审计、可验证,研究者可以评估每一步的生物学合理性。

3.4 Layer 4:Bootstrap 置信度评估

通过 1000 次 Bootstrap 重采样检验排名的稳定性。将 top-1 化合物在重采样中保持第一的频率作为置信度指标:

  • STRONG:≥80%,强证据

  • MODERATE:50-80%,中等证据

  • EXPLORATORY:<50%,探索级证据

4. 回顾性验证结果

在三个 GEO 公共数据集上进行了回顾性阳性对照验证:

队列

疾病

样本量

核心发现

证据等级

GSE40279(Hannum 衰老队列)

衰老

656

烟酸排名第一,Top-5 中 2 个为已知衰老保护剂(geroprotector)

MODERATE

GSE42861

类风湿关节炎

689

6/10 已知 RA 药物被回收,己酮可可碱排名第一

STRONG

GSE128235

抑郁症(MDD)

533

肌酸排名第一,先天免疫通路主导

EXPLORATORY

RA 队列的验证结果最具说服力:已知 RA 治疗药物的回收率达到 5.8 倍随机水平(Fisher's exact test, p < 0.01),表明 PPI 模块级对齐能够捕捉到有意义的药物-疾病匹配关系。

抑郁症队列的 top-1 化合物(肌酸)Bootstrap 稳定性仅 24.5%,被标记为 EXPLORATORY 级别。这一结果反映了抑郁症异质性高、甲基化信号相对微弱的特点,也体现了框架诚实报告不确定性的设计原则。

5. 开源工具

SteeraMed Core 已作为开源 Python 工具包发布(pip install steeramed-core),当前版本内置了上述三个验证案例的完整数据,供研究者交互式探索四层证据链的生成过程。

当前版本为概念验证(proof-of-concept),暂不支持自定义数据输入。后续版本将逐步开放自定义甲基化数据(Illumina 450K/EPIC)的分析功能。

项目地址:https://github.com/DeepoMe/SteeraMed

fig4_aging_patient.png

6. 局限性
  1. 回顾性设计:目前验证均为阳性对照回收实验,不是前瞻性临床试验,不能作为疗效证据

  2. 置信度异质性:不同疾病/个体的 Bootstrap 置信度差异显著,抑郁症队列的 EXPLORATORY 级结果提示该方法在信号微弱场景下可靠性有限

  3. 单一组学:仅基于 DNA 甲基化数据,未整合转录组、蛋白质组等多组学信息

  4. 匹配对照选择:年龄(±5 岁)和性别的匹配策略较为简单,未控制细胞组分比例等混杂因素

  5. 工具成熟度:当前版本为交互式演示,尚不支持自定义数据分析

参考文献
  1. López-Otín C, Blasco MA, Partridge L, et al. The hallmarks of aging. Cell, 2013, 153(6): 1194-1217.

  2. López-Otín C, Blasco MA, Partridge L, et al. Hallmarks of aging: An expanding universe. Cell, 2023, 186(2): 243-278.

  3. Horvath S. DNA methylation age of human tissues and cell types. Genome Biology, 2013, 14: R115.

  4. Hannum G, Guinney J, Zhao L, et al. Genome-wide methylation profiles reveal quantitative views of human aging rates. Molecular Cell, 2013, 49(4): 621-635.

  5. Ha D, Schmidhuber J. World models. NeurIPS, 2018.

  6. Liberzon A, Birger C, Thorvaldsdóttir H, et al. The Molecular Signatures Database Hallmark Gene Set Collection. Cell Systems, 2015, 1: 417-425.

  7. Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. DOI: 10.20944/preprints202605.0366.v1

  8. Xiong J. SteeraMed: A Biomedical World Model for N-of-1 Intervention Reasoning across Chronic Diseases and Aging. Preprints.org, 2026. DOI: 10.20944/preprints202605.1578.v1

本文介绍的工作由 DeepoMe 团队完成。项目主页:steeramed.com,团队官网:deepome.com



https://blog.sciencenet.cn/blog-508476-1537359.html

上一篇:医疗 AI 的下一步:从报告解读到生命轨迹推演——医学世界模型 SteeraMed 的方法论探索




    
收藏 IP: 114.249.208.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-13 16:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部