博文

从医疗人工智能到医学世界模型：关于“干预后果推演”的若干思考

已有 1210 次阅读 2026-5-18 12:24 |个人分类:世界模型|系统分类:科研笔记

一、问题的提出：医学 AI 的下一步究竟是什么？

过去十余年，人工智能在医学领域的发展大致经历了几个相对清晰的方向。

第一类是通常意义上的医疗人工智能，包括医学影像识别、病历结构化、临床风险预测、医学问答、辅助分诊、临床文书生成等。这类技术主要提高医疗信息处理效率，帮助医生更快、更稳定地识别、整理和利用已经发生的医学事实。

第二类是近年来快速发展的AI 制药，包括靶点发现、蛋白结构预测、分子生成、虚拟筛选、毒性预测、临床前优化等。这类技术试图提高药物研发效率，帮助研究者更快发现可能有用的干预工具。

这些方向都很重要，也会继续发展。但如果从医学本身最核心的问题来看，仅仅“看懂疾病”或“找到候选药物”还不够。医学真正困难的问题往往是：

当一种干预进入真实人体之后，它是否能够安全、可解释、可验证地改变疾病或健康轨迹？

这里的“干预”可以是药物、剂量调整、手术、营养、运动、睡眠、行为改变，也可以是多种措施的组合。医学不仅关心一个患者现在处于什么状态，也关心如果采取某种干预，未来状态是否会发生可验证的改变；如果没有干预，疾病自然过程又会如何发展；如果换一种干预路径，结局是否可能不同。

这类问题已经超出了普通预测模型的范围。普通预测模型主要回答“类似患者过去通常会怎样”，而医学干预问题更接近于“如果采取另一种行动，结果是否会不同”。这就涉及时间轨迹、因果推断、反事实比较、机制约束和真实世界反馈。

在这个背景下，“医学世界模型”或“生物医学世界模型”成为一个值得讨论的方向。

二、什么是医学世界模型？

“世界模型”一词在人工智能领域通常指能够学习外部环境状态变化规律，并用于预测、规划或模拟行动后果的模型。将这一概念引入医学时，需要非常谨慎，因为人体不是封闭、简单、可完全观测的工程系统。医学世界模型不应被理解为可以完整模拟人体的“万能数字人”，更不能被理解为能够直接给出临床决策的自动机器。

较为审慎的定义是：

医学世界模型是一类试图在医学机制、纵向数据和真实反馈约束下，对患者状态随时间变化以及不同干预可能后果进行建模、推演和验证的计算框架。

它至少涉及五个要素。

第一，状态表征。模型需要描述一个人的当前医学状态。这不仅包括诊断名称，还可能包括基因、分子、免疫、代谢、器官功能、影像、症状、生活方式、用药史和检查结果等多层信息。

第二，干预输入。模型需要明确被施加的干预是什么，例如某种药物、剂量、治疗方案、营养调整、运动计划或行为改变。

第三，时间轨迹。医学状态不是静止的。疾病进展、治疗反应、副作用和恢复过程都发生在时间中。因此，模型需要描述状态如何随时间演化。

第四，反事实比较。医学上常常需要比较“如果不治疗会怎样”“如果换一种治疗会怎样”“如果更早干预会怎样”。这类问题不能简单依赖相关性预测，需要借助因果推断和反事实建模思想。

第五，真实反馈与校准。模型推演必须接受随访数据、实验结果、临床观察和真实世界证据的检验。没有反馈闭环的模型，最多只能生成假设，不能形成可靠医学证据。

因此，医学世界模型不是“更大的医学聊天机器人”，也不是简单的风险评分模型。它的关键目标不是生成文本，而是在一定边界条件下组织医学证据、提出可检验假设，并帮助研究者思考干预后果。

三、它与传统医疗 AI 和 AI 制药有什么区别？

可以把当前生物医学 AI 的若干方向简化为三个层次。

第一层是医学感知与信息处理。

例如影像识别、病历抽取、风险预测、医学文书生成。这类系统主要回答：医学数据中已经发生了什么？患者当前风险大致如何？

第二层是干预工具发现。

例如靶点发现、分子生成、蛋白结构预测、药物筛选。这类系统主要回答：是否能够更快发现一个可能有效的药物、靶点或治疗工具？

第三层是干预后果推演与验证。

医学世界模型试图回答：某种干预进入具体生命系统之后，是否真的改变了疾病轨迹？这种改变是否符合机制？是否能被随访验证？如果没有达到预期，原因可能在哪里？

这三个层次并不是互相替代的关系，而是互相连接的关系。医学感知为状态表征提供数据基础；AI 制药提供潜在干预工具；医学世界模型则试图把状态、干预、时间和反馈放入同一个可审查框架中。

用更简洁的话说：

医疗 AI 更偏向“识别和整理医学事实”；
AI 制药更偏向“发现和优化干预工具”；
医学世界模型更偏向“推演和验证干预后果”。

这种区分有助于避免把所有医学 AI 都混为一谈。

四、为什么“干预后果”是医学中最难的问题？

医学预测和医学干预之间存在重要差别。

预测模型可以根据历史数据估计某类患者未来发生某种事件的概率。例如，某个患者未来五年发生心血管事件的风险较高。这类模型在临床风险分层中很有价值。

但干预问题要复杂得多。真正关键的问题不是“这个患者风险高不高”，而是：

如果现在改变治疗方案，风险是否会下降？
如果提前干预，结局是否会不同？
如果某个生物标志物改善，是否代表真实临床获益？
如果模型预测错误，错误来自数据偏差、机制假设错误、患者分型不准，还是干预执行不充分？

这些问题涉及因果关系，而不只是相关性。历史上相似患者的平均趋势，并不必然代表某个具体患者在某种干预下的结果。观察性医疗数据还常常存在治疗选择偏差、记录偏差、缺失数据和混杂因素。

因此，医学世界模型如果要真正有价值，就不能只是把大量数据输入一个黑箱模型，然后输出一个看似确定的结论。它必须表达不确定性，必须接受机制约束，必须能够被审计，并且必须在真实随访中不断校准。

五、监管科学给出的启示：证据链比单点预测更重要

近年来，个体化治疗、超罕见病治疗和 N-of-1 研究受到更多关注。对于极罕见疾病，传统大规模随机对照试验常常难以开展，但这并不意味着医学证据标准可以被降低。相反，研究者和监管者需要更加清楚地组织证据链。

美国 FDA 在 2026 年发布的 Plausible Mechanism Framework 相关草案文件，主要面向具有已知生物学原因的特定遗传疾病个体化疗法。该框架仍是草案性质，并非对任何具体模型或产品的认可。它的重要启发在于：当传统大规模试验难以开展时，监管科学仍然强调机制、生物学原因、自然病程、靶点作用、指标变化和临床结局之间的证据链。

一条可信证据链通常需要回答：

疾病是否有明确的生物学原因？
治疗是否针对该原因或相关机制？
如果不治疗，疾病自然病程通常如何？
干预后是否观察到与机制一致的变化？
这些变化是否与临床结局相关？
证据是否足够支持进一步研究、临床使用或监管判断？

这对医学世界模型有重要启发。医学世界模型不能凭空生成一个未来，也不能仅凭“机制上合理”就推断治疗有效。它更适合被看作一种组织证据、生成假设、比较路径和发现不确定性的工具。

换言之，未来医学 AI 的重要能力可能不是“给出一个答案”，而是帮助研究者和医生更好地回答：

为什么这样干预？预计改变什么？用什么指标验证？失败后如何修正？

这正是“状态—干预—反馈—验证”闭环的重要性。

六、长寿医学为什么可能成为早期应用场景？

慢病和衰老相关变化通常不是突然发生的，而是在多年中逐渐积累。血糖、炎症、代谢、肌肉功能、睡眠、认知、免疫状态和表观遗传指标，往往都呈现长期轨迹变化。

因此，长寿医学和慢病管理非常依赖纵向数据。一次检测只能提供一个时间点的信息，而真正重要的是：

指标是否持续变化？
多层指标是否指向一致方向？
功能状态是否改善？
风险是否下降？
干预效果是否稳定？
是否存在过度检测或过度干预？

例如，某个“生物年龄”指标下降，并不自动等于真实健康获益，更不等于寿命延长。它可能只是某个模型或某类标志物的变化。科学上更严谨的问题应当是：这种变化是否与功能改善、疾病风险降低或长期结局相关？是否能够在不同人群、不同时间点和不同检测体系中重复？

从这个角度看，长寿医学可能是医学世界模型的早期试验场景之一。但这里的“世界模型”应当是弱边界、特定任务、可验证的模型，而不是声称能够完整模拟人体衰老过程的强模型。

较现实的做法是，在明确场景中整合若干纵向信息，例如表观遗传、蛋白、代谢、生活方式、功能测评和随访反馈，逐步建立可校准的健康轨迹模型。其输出应当被视为研究辅助或健康管理参考，而不是临床疗效证明。

七、近期相关研究说明了什么？

近年来，若干研究开始接近医学世界模型所关注的问题，但总体仍处于早期阶段。

一类研究尝试根据治疗前影像和治疗方案模拟肿瘤治疗后的状态变化，并结合预后评估来辅助比较治疗路径。例如，2025 年的预印本 Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning 提出了面向肿瘤演化模拟的医学世界模型思路。这类研究的意义在于，它们从单纯识别病灶，开始转向“治疗后可能如何变化”的问题。但这类模型仍需要多中心、前瞻性、严格设计的验证，不能直接等同于临床决策工具。

另一类研究利用电子病历中的纵向数据，学习患者在住院或长期随访过程中的状态变化。例如，2026 年的预印本 EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories 试图从电子健康记录中建模长程临床轨迹。这类模型有助于理解疾病、检查、用药和结局之间的时间关系。但电子病历数据本身存在记录不完整、治疗选择偏差、缺失和混杂等问题，因而从相关性轨迹走向干预因果推断仍然有很长距离。

还有一些面向多病共存和长期风险的基础模型，能够学习长期疾病事件之间的时间关系。例如 SurvivEHR 使用竞争风险和 time-to-event 建模框架，面向多种长期疾病开展风险建模。这类模型未必是完整意义上的医学世界模型，因为主要仍是风险预测，但为进一步构建干预路径比较模型提供了数据和方法基础。

此外，一些研究者提出了可驾驭生物医学世界模型框架，强调模型不仅要预测，还应允许医生或研究者设定干预方向、施加机制约束、表达不确定性、接受随访校准，并能够进行错误分析和审计。例如 SteeraMed: A Steerable Biomedical World Model 可作为一种关于可驾驭生物医学世界模型的框架性探索来讨论。其重点在于状态表征、干预方向、反事实推演、反馈校准与审计，而不是宣称已经形成经过临床验证的自动决策系统。

因此，较为稳妥的判断是：医学世界模型正在从概念讨论走向早期原型，但距离成熟临床应用仍有较大差距。

八、它与系统生物学、数字孪生、虚拟细胞和分子模型的关系

医学世界模型并不是凭空出现的新概念。它与系统生物学、传统生物建模、数字孪生、虚拟细胞以及蛋白结构预测等方向都有关联。

系统生物学关注基因、蛋白、代谢和信号通路之间的网络关系，强调机制解释和系统层面的相互作用。

传统生物建模通常在特定机制或局部系统中建立数学模型，例如某条信号通路、某类代谢过程或某个疾病机制。

虚拟细胞和全细胞模型试图在细胞层面建立可运行的计算模拟，用于理解细胞状态和反应。

AlphaFold 等结构生物学模型则极大推动了蛋白结构和分子相互作用预测，对基础生物学和药物研发具有重要意义。

医学世界模型与这些方向的区别在于，它更接近患者层面的医学问题：在给定患者状态和干预条件下，未来疾病或健康轨迹是否可能改变？这种改变是否符合机制？能否被真实数据验证？

因此，医学世界模型并不是要替代系统生物学、虚拟细胞或分子模型，而是可能把它们提供的机制知识、分子结构、细胞响应和临床数据进一步连接到医学干预问题中。

九、主要挑战

如果医学世界模型要从研究概念走向可信工具，至少需要面对以下挑战。

第一，数据质量。

医学数据往往不完整、不均衡、异质性强。不同医院、不同检测平台、不同人群之间存在显著差异。没有高质量、纵向、多模态数据，很难建立可靠模型。

第二，因果推断。

医学干预问题不能只依赖相关性。模型需要尽可能处理混杂因素、选择偏差和反事实问题，否则容易把历史治疗模式误认为真实因果关系。

第三，机制约束。

医学世界模型如果完全依赖黑箱学习，可能生成看似合理但不符合生物学机制的推演结果。如何把机制知识、通路信息、临床指南和统计学习结合起来，是关键问题。

第四，不确定性表达。

医学场景中，错误的确定性比不确定性更危险。模型应当告诉使用者哪些结论相对可靠，哪些只是弱假设，哪些超出了数据支持范围。

第五，验证体系。

模型输出必须接受真实世界随访、实验验证、前瞻性研究和临床审查。没有验证闭环，模型只能停留在假设生成阶段。

第六，伦理与监管。

医学模型可能影响诊疗、用药和健康管理决策。因此，必须考虑隐私保护、偏倚、公平性、责任归属和监管合规问题。

十、应当避免的几个误解

讨论医学世界模型时，尤其需要避免以下误解。

误解一：医学世界模型可以替代医生。

目前没有证据支持这种判断。更合理的定位是研究辅助、假设生成、决策支持和证据组织工具。

误解二：模型预测等于临床疗效。

模型推演不是治疗效果证明。疗效仍需要实验、临床研究和真实世界证据支持。

误解三：机制合理等于治疗有效。

医学史上有许多机制上合理但临床失败的例子。机制可以提高假设可信度，但不能替代验证。

误解四：指标改善等于健康改善。

某个生物标志物变化不一定代表患者真实获益。必须关注功能、风险、症状和长期结局。

误解五：越大的模型越接近真实人体。

模型规模并不自动带来医学可信度。医学模型的价值取决于数据质量、机制约束、验证设计和临床适用边界。

十一、结语：从“预测疾病”到“验证干预”

医疗人工智能已经在医学信息处理、影像识别、病历整理和辅助决策中发挥越来越重要的作用。AI 制药也正在改变药物发现和临床前研究的部分流程。

但医学的核心问题并不止于识别疾病或发现候选药物。更困难的问题是：当我们采取某种干预时，人体状态是否会沿着更好的方向改变？这种改变是否符合机制？能否被随访和临床证据验证？如果失败，原因是什么？

医学世界模型的意义，正在于它试图把状态、干预、时间、机制、反事实和反馈放到同一个框架中。它不应被神化为能够完整模拟人体的“终极模型”，也不应被简单视为又一个医学大模型概念。更稳妥的理解是：它可能成为未来医学人工智能中连接数据、机制、干预和验证的一类重要方法。

在现阶段，医学世界模型最合适的定位仍然是：生成可检验假设，辅助研究设计，组织证据链，表达不确定性，并在真实反馈中不断校准。

如果未来这一方向能够在数据质量、因果推断、机制约束、临床验证和监管审查方面取得进展，那么医学 AI 的重点可能会逐步从“预测谁会生病”，转向“验证如何更安全、更可解释地改变健康轨迹”。

这或许才是医学人工智能最值得期待、也最需要谨慎推进的方向。

参考文献

U.S. Food and Drug Administration. Considerations for the Use of the Plausible Mechanism Framework to Develop Individualized Therapies that Target Specific Genetic Conditions with Known Biological Cause. Draft Guidance, February 2026.
U.S. Food and Drug Administration. FDA Launches Framework for Accelerating Development of Individualized Therapies for Ultra-Rare Diseases. FDA News Release, February 23, 2026.
Prasad V, Makary MA. FDA’s New Plausible Mechanism Pathway. New England Journal of Medicine. 2025;393(23):2365–2367. doi:10.1056/NEJMsb2512695.
Qazi MA, Nadeem M, Yaqub M. Beyond Generative AI: World Models for Clinical Prediction, Counterfactuals, and Planning. arXiv:2511.16333, 2025.
Yang Y, Wang ZY, Liu Q, et al. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv:2506.02327, 2025.
Mu L, Huang X, Gu Y, Qin S, Zhang S, Zhang X. EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories. arXiv:2602.03569, 2026.
Gadd C, Gokhale K, Acharya A, et al. SurvivEHR: a competing risks, time-to-event foundation model for multiple long-term conditions from primary care electronic health records. npj Digital Medicine. 2026. doi:10.1038/s41746-026-02709-z.
Augustine EF, Yu TW, Finkel RS. N-of-1 Studies in an Era of Precision Medicine. JAMA. 2024;332(16):1386–1387. doi:10.1001/jama.2024.14637.
National Academy of Medicine. Expanding the Role of N-of-1 Trials in the Precision Medicine Era: Action Priorities and Practical Considerations. NAM Perspectives, 2024.
Schölkopf B, Locatello F, Bauer S, Ke NR, Kalchbrenner N, Goyal A, Bengio Y. Toward Causal Representation Learning. Proceedings of the IEEE. 2021;109(5):612–634.
Pearl J. Causality: Models, Reasoning, and Inference. Cambridge University Press.
Hernán MA, Robins JM. Causal Inference: What If. Chapman & Hall/CRC.
LeCun Y. A Path Towards Autonomous Machine Intelligence. OpenReview, 2022.
U.S. Food and Drug Administration. Artificial Intelligence and Machine Learning in Software as a Medical Device and related regulatory science resources.
SteeraMed: A Steerable Biomedical World Model. https://SteeraMed.com
Xiong J, et al. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. doi:10.20944/preprints202605.0366.v1.
Stanford University School of Engineering. “Virtual cell” would bring benefits of computer simulation to biology. 2010. https://engineering.stanford.edu/news/virtual-cell-would-bring-benefits-computer-simulation-biology
Tang L. The virtual cell. Nature Methods. 2025. doi:10.1038/s41592-025-02951-5.
Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021;596:583–589. doi:10.1038/s41586-021-03819-2.
Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature. 2024;630:493–500. doi:10.1038/s41586-024-07487-w.
Google DeepMind. AlphaFold: Five years of impact. 2025. https://deepmind.google/blog/alphold-five-years-of-impact/