博文

医学 AI 的下一步：不只是安全护栏，而是可驾驭世界模型

已有 995 次阅读 2026-5-17 22:02 |个人分类:世界模型|系统分类:科研笔记

医学世界模型：从外部“约束”到内部“可驾驭”——关于 Harness Engineering 与 Steerable Biomedical World Model 的一点思考

熊江辉

近年来，大模型、AI Agent、RAG、工具调用和多智能体系统迅速进入医疗健康领域。围绕医疗 AI 的讨论，也越来越多地集中在一个现实问题上：

如何让 AI 不乱说？

如何避免 AI 给出处方？

如何防止模型编造文献？

如何让医学 AI 的输出更安全、更合规？

这些问题非常重要。

在医学场景中，任何一个错误回答都可能带来误导、延误甚至风险。因此，医疗 AI 必须有严格的外部约束、流程控制和人类监督。

但是，我想提出另一个问题：

如果一个医学 AI 系统已经有了安全护栏，它是否就具备了医学世界模型能力？

我的回答是：不一定。

一个带有外部护栏的医学 AI 系统，可以更安全地输出信息；但医学世界模型真正要解决的，是另一个更深层的问题：

生物状态如何被表征？

干预动作如何被建模？

状态转移如何被推演？

如果结果没有按预期发生，失败原因如何被诊断？

这一区分，涉及两个概念：

Harness Engineering：外部约束工程；
Steerable Biomedical World Model：可驾驭的生物医学世界模型。

前者主要处理 AI 系统的行为边界。

后者试图处理生物系统的状态转移与反馈修正。

这两者都重要，但它们不是同一件事。

一、什么是 Harness Engineering？

“Harness”一词原意是马具、挽具、束具。放到 AI 系统中，可以理解为：

通过外部工程结构，对一个强大的 AI 模型进行包裹、约束、调度和验证，使其行为更可控、更安全、更可审计。

在当前大模型工程中，广义的 harness engineering 包括：

system prompt；
prompt template；
RAG 检索增强；
tool calling；
workflow 编排；
输出验证器；
safety filter；
rule engine；
human-in-the-loop；
权限控制；
审计日志；
沙盒执行；
高风险场景转人工。

如果用一个简单流程表示，可以写成：

用户输入 ↓ 意图识别 / 风险分类 ↓ 知识检索 / 工具调用 ↓ 大模型生成 ↓ 输出验证 ↓ 安全过滤 ↓ 必要时人工审核 ↓ 最终输出

在软件工程中，这种做法非常有效。

例如代码生成系统可以通过单元测试、类型检查、静态分析、沙盒运行和人工 review，降低模型错误带来的风险。

在医学 AI 中，harness engineering 更是必要的。因为医疗场景天然高风险，一个医学 AI 系统至少应当避免：

编造医学依据；
越权诊断；
擅自推荐药物；
混淆科普信息与医疗建议；
忽视急症或禁忌证；
过度解释检查结果；
延误患者就医；
夸大干预效果。

因此，医疗 AI 必须有护栏。

但问题在于：

有护栏，不等于有世界模型。

二、外部护栏解决的是 AI 行为风险

Harness engineering 主要回答的是：

AI 是否乱说？ AI 是否越界？ AI 是否伪造引用？ AI 是否给出危险建议？ AI 是否违反产品边界？

这些问题属于 AI 行为风险。

例如，一个医学 AI 问答系统可以通过外部规则要求模型：

不直接诊断；
不给出处方；
不替代医生；
高风险问题提示就医；
引用可靠资料；
对不确定性进行说明。

这样可以显著提高输出安全性。

但是，医学 AI 还有另一类风险：

患者状态是否表征正确？干预动作是否建模正确？机制链条是否成立？状态转移方向是否合理？分子变化能否传导到功能变化？功能变化能否传导到临床获益？失败原因能否被定位？

这些问题属于 生物推理风险。

生物推理风险不能仅靠 prompt、RAG 或 guardrail 解决。

它需要模型对生物状态、干预动作、状态转移和反馈机制有更内在的结构化表达。

这就是医学世界模型要面对的问题。

三、医学世界模型不只是“医疗大模型 + 工具链”

目前许多医疗 AI 系统在技术上已经相当复杂：

LLM + 医学知识库 + RAG + 工具调用 + 多 Agent 协作 + 报告生成 + 安全过滤 + 医生审核

这类系统有实际价值。

它们可以用于病历摘要、文献综述、报告解释、指南检索、科研辅助和健康科普。

但严格来说，它们不一定是医学世界模型。

因为医学世界模型至少需要回答以下问题：

当前生物状态是什么？
干预动作如何表示？
给定当前状态与候选动作，状态可能如何转移？
如果选择另一种动作，反事实路径如何变化？
如果观察结果偏离预期，失败发生在哪一层？

换句话说：

有 RAG ≠ 有状态表征有 Agent ≠ 有状态转移模型有 workflow ≠ 有世界模型有 guardrail ≠ 有可驾驭性

医疗 AI 能否安全回答问题，与它是否具备生物状态转移推理能力，是两个不同层级的问题。

四、什么是医学世界模型？

在机器人、游戏智能体和控制系统中，世界模型通常可以简化为：

当前状态 + 动作 → 下一状态

即：

S(t), A → S(t+Δt)

例如：

机器人当前位置 + 电机动作 → 下一位置

或：

当前游戏画面 + 玩家动作 → 下一帧状态

但医学场景中的状态与动作都更复杂。

医学中的“状态”不是一个简单坐标，也不只是疾病名称。它可能包括：

分子网络状态；
DNA 甲基化状态；
转录组状态；
蛋白组状态；
免疫状态；
炎症状态；
代谢状态；
器官功能；
通路活性；
衰老模块状态；
个体基线；
时间轨迹；
环境暴露。

医学中的“动作”也不只是一个离散命令。它可能包括：

药物；
剂量；
时间；
干预顺序；
营养；
运动；
睡眠；
行为改变；
细胞治疗；
联合干预；
随访策略。

因此，医学世界模型更严谨的表达应当是：

当前分子 / 功能状态 + 候选干预动作 → 可检验的生物状态转移方向假设

这里必须强调“假设”二字。

在当前阶段，大多数医学世界模型尚不具备充分的纵向干预数据，不能直接声称能够预测个体治疗效果。更合适的定位是：

生成可审计、可验证、可反驳的状态转移假设。

也就是说，早期医学世界模型更像是：

state-action-transition hypothesis system

而不是：

validated clinical decision system五、“可驾驭”不是自动治疗决策

“可驾驭”这个词容易被误解。

它不是指 AI 自动控制人体，也不是指 AI 替代医生做治疗决策。

我所说的 steerability，更接近以下含义：

模型能够把状态、动作、转移假设、机制证据、不确定性和反馈检查显式化，使人类能够审查、质疑和修正推理路径。

也就是说，模型不是简单输出：

推荐某干预。

而是给出一条可以被检查的链条：

当前状态是什么？候选动作是什么？为什么认为该动作与当前状态相关？预计状态向哪个方向变化？机制证据在哪里？不确定性在哪里？如果失败，可能是哪一层失败？

在预印本 World Models for Biomedicine: A Steerability Framework 中，我将这一问题组织为五个约束检查点：状态表征、能力量化、干预响应语义、反事实转移和质量控制反馈。该框架的核心观点是：医学世界模型不应只是被动预测系统，而应成为一个可审计、可质疑、可修正的 steerability framework。[1]

六、Harness Engineering 与 Steerable World Model 的区别

二者的区别可以概括为一句话：

Harness engineering controls the AI system from outside.

Steerable world modeling structures biomedical reasoning from inside.

翻译成中文：

Harness engineering 从外部约束 AI。

Steerable world model 从内部组织医学推理。

更具体地说：

维度	Harness Engineering	Steerable Biomedical World Model
核心问题	如何让 AI 输出更安全？	如何让生物状态转移可表征、可推演、可检查？
主要对象	模型行为、工具调用、输出流程	生物状态、干预动作、状态转移、机制反馈
常见组件	Prompt、RAG、Validator、Guardrail、Workflow	State、Action、Transition、Counterfactual、QC
解决风险	AI 行为风险	生物推理风险
失败诊断	输出是否违规？工具是否调用错误？	状态测量是否错误？干预语义是否错误？转移假设是否错误？
工程层级	外部安全层	内部世界模型层
典型目标	安全可控地输出	可审计地推演状态变化

可以进一步概括为：

Harness Engineering: LLM → safer output Steerable World Model: biological state → action → transition hypothesis → feedback

两者并不对立。

严肃的医学 AI 需要二者同时存在。

但它们不能相互替代。

七、一个例子：药物相关性与状态转移假设

假设某患者存在炎症相关异常。

一个医学知识库可能回答：

某药物与炎症通路有关。

一个带有外部护栏的医学 AI 可能回答：

某药物与炎症通路有关，但本文仅供科普，不构成医疗建议，请咨询医生。

这个回答比前者安全。

但它仍然不是医学世界模型。

一个可驾驭医学世界模型应进一步提出：

1. 当前炎症模块状态是什么？ 2. 该患者的异常是否位于该药物相关通路中？ 3. 该药物作为 action，其靶点、方向和模块响应是什么？ 4. 该 action 是否可能使状态向期望方向移动？ 5. 这种移动发生在分子层、功能层，还是表型层？ 6. 如果干预失败，失败可能发生在哪个环节？

也就是说：

知识库提供“相关知识”；
加护栏的 AI 提供“更安全的相关知识”；
可驾驭世界模型提供“状态—动作—转移—反馈”的证据链。

这三者属于不同层级。

八、医学世界模型的五个基本结构

一个更接近医学世界模型的系统，至少需要五类结构。

1. 状态表征：State Representation

首先，模型必须回答：

这个人现在是什么状态？

疾病名称不是充分的状态表征。

“糖尿病”“抑郁症”“类风湿关节炎”只是表型层标签。

医学世界模型需要更细粒度的状态空间，例如：

分子状态；
通路状态；
网络模块状态；
免疫状态；
代谢状态；
器官功能状态；
衰老模块状态；
个体历史轨迹。

关键不在于具体采用向量、图结构还是多模态嵌入，而在于：

模型必须明确自己正在模拟什么状态。

2. 动作表征：Action Representation

医学中的 action 不能只是一个标签。

drug A exercise nutrition intervention sleep improvement

这些只是表面名称。

在世界模型中，一个 action 应当包含：

A = { target_modules, mechanism, direction, dose, timing, duration, sequence, context, uncertainty }

同样是运动，对不同个体可能代表不同的生物学含义：

个体 1：改善胰岛素敏感性个体 2：增加炎症负荷个体 3：改善线粒体适应能力个体 4：过度训练导致恢复失败

因此，医学 action 必须进入干预响应语义层，而不能只是数据库标签。

3. 状态转移估计：Transition Estimation

世界模型的核心问题是：

S(t), A → Ŝ(t+Δt | A)

即：

给定当前状态和候选动作，状态可能如何变化？

但在医学里，这一步必须非常谨慎。

早期系统不应声称：

模型已经预测治疗一定有效。

更合适的说法是：

模型提出一个受机制约束、可审计的状态转移方向假设。

也可称为：

knowledge-constrained transition tendency

其含义是：

基于已有生物机制、网络结构、个体状态和干预语义，估计一个可能的状态变化方向，但仍需实验、随访或临床数据验证。

4. 反事实推理：Counterfactual Reasoning

医学决策天然是反事实问题。

例如：

如果做 A 而不是 B，会怎样？如果先做 A 再做 B，会怎样？如果不干预，自然轨迹会怎样？如果同一干预用于不同状态的人，会怎样？

这类问题不能仅靠检索回答。

它需要模型能比较不同的状态转移假设：

Ŝ(t+Δt | A) Ŝ(t+Δt | B) Ŝ(t+Δt | no intervention)

当然，这仍然不是已经验证的个体疗效预测，而是反事实状态转移假设的比较。

5. 质量控制反馈：Quality-Control Feedback

医学世界模型不能只问：

如果这样做会怎样？

还必须问：

为什么没有发生预期结果？

如果预期状态转移没有发生，模型应能追问：

状态测量错了吗？干预动作定义错了吗？模块响应没有发生吗？状态没有按预期移动吗？下游表型没有传播吗？剂量不对吗？时间窗口不对吗？个体基线不同吗？

普通预测模型失败时，常常只能说：

prediction error

可驾驭医学世界模型失败时，应当能够定位：

failure occurred at state measurement failure occurred at action semantics failure occurred at transition assumption failure occurred at downstream propagation

这就是从 “what-if simulator” 走向 “why-not steering system”。

九、SteeraMed 的可能定位

如果将 SteeraMed 理解为面向可驾驭医学 AI 的研究、方法或平台方向，那么它不应只是：

Medical LLM + RAG + safety guardrails

这类系统固然有用，但主要属于医学 AI 的应用层。

更深的问题是：

How can medical AI become steerable rather than merely constrained?

也就是：

医学 AI 如何从“被约束”走向“可驾驭”？

从架构上看，SteeraMed 可以被设计为两层：

1. Harness Layer - 权限控制 - 安全边界 - 合规规则 - 输出校验 - 人工审核 - 审计日志 2. Steerability Layer - 状态表征 - 动作语义 - 反事实转移 - 机制证据链 - 质量控制反馈

第一层回答：

AI 能不能安全说话？

第二层回答：

医学状态能不能被结构化推演和驾驭？

这两层缺一不可。

十、严肃医学 AI 系统的分层结构

我认为，一个严肃的医学 AI 系统至少需要五层：

Human Oversight Layer 医生、研究者、用户、伦理监督 Clinical Governance Layer 适用范围、责任边界、监管要求 Harness Engineering Layer Prompt / RAG / Guardrail / Audit Steerable World Model Layer State / Action / Transition / QC Biomedical Data Layer Omics / EHR / Wearables / Imaging

每一层解决不同问题：

层级	解决问题
Biomedical Data Layer	数据从哪里来
Steerable World Model Layer	生物状态如何建模和转移
Harness Engineering Layer	AI 如何安全调用和输出
Clinical Governance Layer	系统是否适合真实场景
Human Oversight Layer	最终如何由人类判断

这一区分很重要。

不能用外部 guardrail 替代内部医学世界模型。

也不能用世界模型概念替代临床治理和安全验证。

十一、科学边界：这不是自动治疗系统

必须特别说明：

可驾驭医学世界模型不等于临床自动化决策系统。

它不应被理解为：

AI 可以替代医生。 AI 可以自动推荐治疗。 AI 可以预测个体疗效。 AI 可以直接用于临床决策。

更准确的定位是：

一个用于生成、组织和检验医学状态转移假设的研究架构。

真正进入临床应用，还需要：

前瞻性验证；
临床试验；
安全性评估；
真实世界随访；
医生监督；
监管审查；
适用范围限定；
责任边界定义。

因此，在当前阶段，steerability 更适合作为：

研究框架工程架构机制推理系统假设生成系统

而不是已经完成的临床产品能力。

十二、结语：从“安全输出”到“可检查推理”

今天许多医疗 AI 的发展路线是：

更大的模型 + 更多医学文献 + 更复杂 Agent Workflow + 更强 Guardrail

这些都重要。

但我认为还不够。

医疗 AI 的下一步，还需要：

明确的状态表征 + 明确的动作语义 + 可检验的状态转移假设 + 可审计的机制链条 + 可诊断的反馈闭环

一句话概括：

Harness engineering makes medical AI safer to use.

Steerable world modeling makes biomedical reasoning more inspectable.

中文可以说：

外部约束让医疗 AI 更安全。

可驾驭世界模型让医学推理更可检查。

第一代真正有价值的医学世界模型，可能并不是那些宣称能够预测一切治疗结果的系统。

相反，它们可能是更谦逊、更可审计、更可证伪的系统：

它们不宣称知道未来。

它们只是把每一个关于状态、动作、转移、机制和不确定性的假设，都明确到可以被测试。

这也许正是医疗 AI 从“预测工具”走向“可驾驭系统”的关键一步。

参考资料

Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. DOI: 10.20944/preprints202605.0366.v1
DOI 链接：https://doi.org/10.20944/preprints202605.0366.v1
SEWO / Steerable Medicine World Model
https://steerable.world
SteeraMed concept site
https://steeramed.com
SteeraMed concept site
https://steeramed.org
DeepOMe / 深度甲基
https://deepome.com