博文

医学里的世界模型：从诊断疾病到模拟干预

已有 894 次阅读 2026-5-21 15:39 |个人分类:世界模型|系统分类:科研笔记

医学 AI 过去十余年的进展，很大一部分集中在识别、分类和风险预测上。

影像 AI 可以辅助识别肺结节、乳腺病灶、眼底异常；风险模型可以估计心血管事件、糖尿病、再入院或不良预后的概率；大语言模型可以总结病历、解释报告、辅助医学文本生成。

这些工作非常重要，也已经构成当前医学 AI 的主要应用基础。

但如果从医学决策本身看，还有一个更深层的问题：

医学不只是判断“现在是什么状态”或“未来可能发生什么”，还要回答“如果采取某种干预，个体状态可能如何变化”。

这个问题把医学 AI 从预测任务推向了干预推演任务。

也正是在这里，“医学世界模型”这一概念开始具有方法学意义。

一、科学性复核：哪些表述需要降温？

在讨论医学世界模型时，首先需要避免几个容易过度化的说法。

1. 不能把医学世界模型说成“人体万能模拟器”

人体不是封闭、可完全观测、可任意试错的游戏环境。个体的遗传背景、发育经历、免疫状态、代谢网络、生活方式、心理压力、药物暴露、医疗条件和社会环境，都会影响干预结果。

因此，医学世界模型不应被表述为“可以完整模拟人体”或“可以准确预测个体疗效”。

更稳妥的表述是：

医学世界模型是一种在证据、机制和反馈约束下，对个体状态及干预后状态转移进行结构化表示和推演的研究框架。

2. 不能把“transition”写成确定疗效

在医学场景中，transition 更适合被理解为“状态转移假设”或“状态转移倾向”，而不是确定性结果。

也就是说，模型可以提出：

在某类证据支持下；
对某类状态的个体；
某种干预可能通过某些机制；
使某些指标、症状、功能或风险状态产生某种方向性变化。

但这仍然是一个有不确定性的推演，不是疗效承诺。

3. 不能把 AI 写成替代医生的自动决策系统

医学世界模型如果进入真实应用，合理定位应是：

hypothesis-generating and decision-support framework，即假设生成和辅助决策框架。

诊断、治疗、处方和临床责任仍然必须由合格医疗专业人员在相应规范下完成。

本文以下讨论，均在这个科学边界内展开。

二、从预测模型到世界模型：问题形式发生了变化

许多医学 AI 模型可以抽象为：

给定当前数据，预测某个标签或结局。

例如：

给定影像，预测是否存在病灶；
给定临床变量，预测疾病风险；
给定病历文本，预测可能诊断或下一步检查；
给定多组学数据，预测疾病分型或预后。

这类模型的基本问题是：

在当前状态下，未来可能发生什么？

而医学世界模型要处理的问题更接近：

在当前状态下，如果采取某个干预动作，未来状态可能如何改变？

这意味着模型结构中必须显式包含 action，即干预动作。

如果没有 action，模型主要是在做风险预测。

如果有了 action，但没有 evidence 和 feedback，模型又容易变成不可审计的黑箱建议。

因此，医学世界模型至少需要同时处理状态、动作、状态转移、证据和反馈。

可以用一个简化结构表示：

State → Action → Transition → Feedback

进一步扩展到医学场景，则是：

Individual State → Intervention Action → Mechanism-informed Transition Hypothesis → Evidence Chain → Longitudinal Feedback

这不是简单把“大模型”用于医学，而是改变医学 AI 的问题定义。

三、为什么医学决策本质上需要 action？

医学诊断很重要，但诊断不是终点。

多数医学实践最终都要进入某种行动：

是否用药；
是否手术；
是否调整生活方式；
是否进行营养、运动、睡眠或康复干预；
是否继续观察；
是否转诊；
是否复查；
是否改变既有方案。

这些行动背后都隐含一个反事实问题：

如果不这样做，会怎样？如果换一种做法，会怎样？

这就是医学中的 counterfactual reasoning，即反事实推理。

临床医学并不陌生反事实思维。随机对照试验、因果推断、真实世界研究、N-of-1 试验，本质上都在试图回答“某个干预是否改变了某个结果”。

医学世界模型的意义，不是替代这些研究方法，而是把这类问题转化为更明确的计算结构：

State：个体当前处于什么状态

临床指标、影像、组学、功能状态、症状、生活方式、病史等。

Action：可以采取什么干预动作

药物、手术、营养、运动、睡眠、心理、康复、功能医学干预、随访观察等。

Transition：动作后状态可能如何变化

指标变化、症状变化、功能变化、风险变化、生活质量变化等。

Evidence：这种推演有什么证据依据

机制研究、临床指南、随机试验、队列研究、真实世界数据、专家共识、个体既往反馈等。

Feedback：真实世界反馈如何校正下一轮判断

复测数据、随访结果、不良反应、执行依从性、主观体验和功能表现。

这五个对象共同构成了医学世界模型的基本轮廓。

四、一个代谢风险例子：从“风险预测”到“干预推演”

假设某个个体出现代谢风险升高。

传统风险模型可能会输出：

未来发生 2 型糖尿病或心血管事件的风险升高。

这是有价值的，因为它提示了风险分层。

但真实的健康管理或医学决策还会继续追问：

风险升高主要与体重、内脏脂肪、胰岛素抵抗、睡眠不足、慢性炎症、运动不足还是饮食结构有关？
如果优先调整饮食，应该观察空腹血糖、餐后血糖、胰岛素、甘油三酯、体重、腰围还是连续血糖曲线？
如果加入运动干预，应该优先关注心肺功能、肌肉量、胰岛素敏感性还是炎症指标？
如果 8 到 12 周后反馈不符合预期，应判断为干预强度不足、执行偏差、机制判断错误，还是观察窗口太短？
是否存在禁忌证、药物相互作用或需要医生评估的情况？

这些问题已经超出了单一风险预测。

它们要求模型能够表示：

当前状态 A，在证据 E 约束下，采取动作 X，可能沿机制路径 M 转向状态 B；如果真实反馈 F 与预期不一致，就需要修正状态定义、动作描述、机制假设或反馈窗口。

这就是医学世界模型的核心工作方式。

五、医学世界模型与数字孪生、系统生物学、临床决策支持的关系

为了避免概念混淆，需要区分几个相近概念。

1. 与系统生物学的关系

系统生物学关注通路、网络、调控关系和机制解释，帮助我们理解生命系统如何运行。

医学世界模型需要吸收系统生物学的机制知识，但它进一步强调 action 和 transition：

系统生物学重在理解系统；医学世界模型重在推演干预后系统如何变化。

二者不是对立关系，而是层级不同。系统生物学可以为医学世界模型提供机制层。

2. 与数字孪生的关系

医学数字孪生通常强调为个体建立动态、可更新的数字表示。它与医学世界模型高度相关。

但并不是所有数字孪生都显式处理 action、counterfactual 和 feedback loop；也不是所有医学世界模型都必须立即达到完整数字孪生的复杂程度。

可以这样理解：

数字孪生强调个体镜像和动态更新；医学世界模型强调状态、动作、转移和反馈推演。

二者在未来可能会融合，但当前讨论时应避免简单等同。

3. 与临床决策支持的关系

临床决策支持系统通常基于指南、规则或统计模型，为医生提供提示。

医学世界模型则更强调：

个体状态表示；
干预动作编码；
状态转移假设；
证据链追踪；
反馈闭环更新。

因此，它可以被看作是更强调动态推演和反馈校准的新型辅助决策框架，但不应被表述为替代临床决策支持或替代医生。

六、为什么要强调“可审计”？

医学 AI 与游戏 AI、机器人 AI 的最大区别之一，是不能随意试错。

医学世界模型必须回答：

推演依据是什么？
适用人群是什么？
证据强度如何？
不确定性在哪里？
哪些条件下不适用？
如果真实反馈偏离预期，如何追溯原因？

因此，医学世界模型必须是可审计的。

所谓可审计，不只是把模型输出保存下来，而是让每一次推演都尽可能保留以下信息：

状态来源

数据来自何处，质量如何，是否有缺失或噪声。

动作定义

干预动作是否具体、可执行、可记录。

机制依据

推演是否有机制研究或临床证据支持。

证据等级

证据来自随机试验、队列研究、真实世界数据、指南、专家共识，还是仅为假设。

风险边界

是否存在禁忌证、潜在不良反应或需要医生评估的问题。

反馈记录

后续观察是否支持原推演，是否需要更新模型。

如果缺少可审计性，医学世界模型很容易退化为“看似高级的自动建议系统”。

这在科学和伦理上都不稳妥。

七、可驾驭世界模型：生物医学世界模型的框架化表达

在上述意义上，可驾驭世界模型可以被理解为一种面向生物医学世界模型的框架化表达。

“可驾驭”不是控制人体，而是在不确定性中明确：

目标方向；
干预动作；
机制依据；
证据链；
反馈标准；
纠偏机制。

这一点可以用一个大众化类比说明。

生命系统不像一辆完全可控的机器，更像一匹有自主性和边界的马。系统生物学帮助我们理解马的结构和运行机制；预测模型估计马可能往哪里跑；医学世界模型模拟不同动作下马可能如何反应；而可驾驭框架关注的是，骑手如何在尊重马的状态和边界的前提下，根据反馈调整方向。

这个类比的关键边界是：

“驾驭”不是控制生命，而是在证据约束和反馈校准中引导决策。

因此，可驾驭世界模型的核心不应被理解为“自动给方案”，而应被理解为一种把 State、Action、Transition、Evidence、Feedback 和 Calibration 组织起来的研究框架。

八、长寿医学为什么会特别需要医学世界模型？

长寿医学是医学世界模型的重要应用场景之一。

原因在于，长寿医学面对的问题通常不是单次诊断，而是长期状态管理。

它关注：

健康寿命；
功能维持；
多系统衰老；
慢性低度炎症；
代谢和免疫状态；
睡眠、压力、运动和营养；
个体差异；
多干预组合；
长期反馈和复测。

这类问题很难被单一预测模型完整处理。

例如，一个人的衰老相关状态可能涉及代谢、炎症、免疫、肌肉、心血管、认知、睡眠等多个维度；干预也可能包括饮食结构、运动处方、睡眠调整、心理压力管理、营养补充、药物管理和医学随访。

这不是一个“预测某个标签”的问题，而是一个长期的 state-action-transition-feedback 问题。

因此，长寿医学真正需要的，不只是更准确的检测，也不只是更会解释报告的 AI，而是能够在科学边界内组织状态、动作、证据、反馈和校准的医学世界模型。

九、当前仍然存在的关键科学挑战

医学世界模型要成为可靠研究方向，还需要面对许多挑战。

1. 状态表示仍不完整

真实人体状态很难被完全观测。临床指标、影像、组学、可穿戴数据和生活方式数据都有缺失、噪声和偏倚。

2. 干预动作难以标准化

同样是“运动干预”或“营养干预”，强度、频率、持续时间、依从性和个体背景差异都很大。action 编码并不简单。

3. 因果关系难以识别

观察性数据容易受到混杂因素影响。模型推演必须谨慎区分相关性、机制假设和因果证据。

4. 个体反馈周期较长

许多医学和长寿医学指标变化缓慢，反馈窗口可能是数周、数月甚至更长。这给模型更新带来挑战。

5. 安全和伦理要求高

医学世界模型必须避免越权诊疗、过度承诺、数据滥用和不透明决策。

这些挑战意味着，医学世界模型不应被包装为已经成熟的临床产品，而应被严肃地看作一个需要机制研究、临床研究、因果推断、数据工程和伦理治理共同支撑的长期方向。

结语：医学 AI 的下一步是从预测走向可审计推演

医学 AI 不能只停留在识别和预测。

识别告诉我们现在看到了什么。

预测告诉我们未来可能发生什么。

医学世界模型进一步追问：如果采取某个行动，状态可能如何改变？

这个问题形式的变化，使医学 AI 从结果预测走向干预推演。

但医学世界模型必须保持科学边界：它不是人体万能模拟器，不是自动诊疗系统，也不是个体疗效承诺。更合理的定位，是一种可审计、可反馈、可校准的辅助决策和假设生成框架。

如果未来医学 AI 能够在状态表示、干预动作、机制证据、反事实推演和长期反馈之间建立可靠连接，那么它就可能成为精准医学、功能医学和长寿医学的重要基础设施。

参考文献与延伸阅读

Ha, D., & Schmidhuber, J. Recurrent World Models Facilitate Policy Evolution. Advances in Neural Information Processing Systems 31, 2018. https://arxiv.org/abs/1803.10122
LeCun, Y. A Path Towards Autonomous Machine Intelligence. OpenReview, 2022. https://openreview.net/forum?id=BZ5a1r-kVsf
Yang, Y., Wang, Z.-Y., Liu, Q., Sun, S., Wang, K., Chellappa, R., Zhou, Z., Yuille, A., Zhu, L., Zhang, Y.-D., & Chen, J. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv:2506.02327, 2025. https://arxiv.org/abs/2506.02327
Qazi, M. A., Nadeem, M., & Yaqub, M. Beyond Generative AI: World Models for Clinical Prediction, Counterfactuals, and Planning. arXiv:2511.16333, 2025. https://arxiv.org/abs/2511.16333
Katsoulakis, E., Wang, Q., Wu, H., et al. Digital twins for health: a scoping review. npj Digital Medicine, 7, 77, 2024. https://doi.org/10.1038/s41746-024-01073-0
Emmert-Streib, F., Parkkila, S., Laubenbacher, R., et al. The role of digital twins in P4 medicine: A paradigm for modern healthcare. npj Digital Medicine, 8, 735, 2025. https://doi.org/10.1038/s41746-025-02115-x
Pearl, J., & Mackenzie, D. The Book of Why: The New Science of Cause and Effect. Basic Books, 2018.
Xiong, J. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. https://doi.org/10.20944/preprints202605.0366.v1
Steerable World 项目网址：https://steerable.world