||
近年来,大模型、AI Agent、RAG、工具调用和多智能体系统迅速进入医疗健康领域。围绕医疗 AI 的讨论,也越来越多地集中在一个现实问题上:
如何让 AI 不乱说?
如何避免 AI 给出处方?
如何防止模型编造文献?
如何让医学 AI 的输出更安全、更合规?
这些问题非常重要。
在医学场景中,任何一个错误回答都可能带来误导、延误甚至风险。因此,医疗 AI 必须有严格的外部约束、流程控制和人类监督。
但是,我想提出另一个问题:
如果一个医学 AI 系统已经有了安全护栏,它是否就具备了医学世界模型能力?
我的回答是:不一定。
一个带有外部护栏的医学 AI 系统,可以更安全地输出信息;但医学世界模型真正要解决的,是另一个更深层的问题:
生物状态如何被表征?
干预动作如何被建模?
状态转移如何被推演?
如果结果没有按预期发生,失败原因如何被诊断?
这一区分,涉及两个概念:
Harness Engineering:外部约束工程;
Steerable Biomedical World Model:可驾驭的生物医学世界模型。
前者主要处理 AI 系统的行为边界。
后者试图处理生物系统的状态转移与反馈修正。
这两者都重要,但它们不是同一件事。
一、什么是 Harness Engineering?“Harness”一词原意是马具、挽具、束具。放到 AI 系统中,可以理解为:
通过外部工程结构,对一个强大的 AI 模型进行包裹、约束、调度和验证,使其行为更可控、更安全、更可审计。
在当前大模型工程中,广义的 harness engineering 包括:
system prompt;
prompt template;
RAG 检索增强;
tool calling;
workflow 编排;
输出验证器;
safety filter;
rule engine;
human-in-the-loop;
权限控制;
审计日志;
沙盒执行;
高风险场景转人工。
如果用一个简单流程表示,可以写成:
用户输入 ↓ 意图识别 / 风险分类 ↓ 知识检索 / 工具调用 ↓ 大模型生成 ↓ 输出验证 ↓ 安全过滤 ↓ 必要时人工审核 ↓ 最终输出在软件工程中,这种做法非常有效。
例如代码生成系统可以通过单元测试、类型检查、静态分析、沙盒运行和人工 review,降低模型错误带来的风险。
在医学 AI 中,harness engineering 更是必要的。因为医疗场景天然高风险,一个医学 AI 系统至少应当避免:
编造医学依据;
越权诊断;
擅自推荐药物;
混淆科普信息与医疗建议;
忽视急症或禁忌证;
过度解释检查结果;
延误患者就医;
夸大干预效果。
因此,医疗 AI 必须有护栏。
但问题在于:
有护栏,不等于有世界模型。
二、外部护栏解决的是 AI 行为风险Harness engineering 主要回答的是:
AI 是否乱说? AI 是否越界? AI 是否伪造引用? AI 是否给出危险建议? AI 是否违反产品边界?这些问题属于 AI 行为风险。
例如,一个医学 AI 问答系统可以通过外部规则要求模型:
不直接诊断;
不给出处方;
不替代医生;
高风险问题提示就医;
引用可靠资料;
对不确定性进行说明。
这样可以显著提高输出安全性。
但是,医学 AI 还有另一类风险:
患者状态是否表征正确? 干预动作是否建模正确? 机制链条是否成立? 状态转移方向是否合理? 分子变化能否传导到功能变化? 功能变化能否传导到临床获益? 失败原因能否被定位?这些问题属于 生物推理风险。
生物推理风险不能仅靠 prompt、RAG 或 guardrail 解决。
它需要模型对生物状态、干预动作、状态转移和反馈机制有更内在的结构化表达。
这就是医学世界模型要面对的问题。
三、医学世界模型不只是“医疗大模型 + 工具链”目前许多医疗 AI 系统在技术上已经相当复杂:
LLM + 医学知识库 + RAG + 工具调用 + 多 Agent 协作 + 报告生成 + 安全过滤 + 医生审核这类系统有实际价值。
它们可以用于病历摘要、文献综述、报告解释、指南检索、科研辅助和健康科普。
但严格来说,它们不一定是医学世界模型。
因为医学世界模型至少需要回答以下问题:
当前生物状态是什么?
干预动作如何表示?
给定当前状态与候选动作,状态可能如何转移?
如果选择另一种动作,反事实路径如何变化?
如果观察结果偏离预期,失败发生在哪一层?
换句话说:
有 RAG ≠ 有状态表征 有 Agent ≠ 有状态转移模型 有 workflow ≠ 有世界模型 有 guardrail ≠ 有可驾驭性医疗 AI 能否安全回答问题,与它是否具备生物状态转移推理能力,是两个不同层级的问题。
四、什么是医学世界模型?在机器人、游戏智能体和控制系统中,世界模型通常可以简化为:
当前状态 + 动作 → 下一状态即:
S(t), A → S(t+Δt)例如:
机器人当前位置 + 电机动作 → 下一位置或:
当前游戏画面 + 玩家动作 → 下一帧状态但医学场景中的状态与动作都更复杂。
医学中的“状态”不是一个简单坐标,也不只是疾病名称。它可能包括:
分子网络状态;
DNA 甲基化状态;
转录组状态;
蛋白组状态;
免疫状态;
炎症状态;
代谢状态;
器官功能;
通路活性;
衰老模块状态;
个体基线;
时间轨迹;
环境暴露。
医学中的“动作”也不只是一个离散命令。它可能包括:
药物;
剂量;
时间;
干预顺序;
营养;
运动;
睡眠;
行为改变;
细胞治疗;
联合干预;
随访策略。
因此,医学世界模型更严谨的表达应当是:
当前分子 / 功能状态 + 候选干预动作 → 可检验的生物状态转移方向假设这里必须强调“假设”二字。
在当前阶段,大多数医学世界模型尚不具备充分的纵向干预数据,不能直接声称能够预测个体治疗效果。更合适的定位是:
生成可审计、可验证、可反驳的状态转移假设。
也就是说,早期医学世界模型更像是:
state-action-transition hypothesis system而不是:
validated clinical decision system五、“可驾驭”不是自动治疗决策“可驾驭”这个词容易被误解。
它不是指 AI 自动控制人体,也不是指 AI 替代医生做治疗决策。
我所说的 steerability,更接近以下含义:
模型能够把状态、动作、转移假设、机制证据、不确定性和反馈检查显式化,使人类能够审查、质疑和修正推理路径。
也就是说,模型不是简单输出:
推荐某干预。而是给出一条可以被检查的链条:
当前状态是什么? 候选动作是什么? 为什么认为该动作与当前状态相关? 预计状态向哪个方向变化? 机制证据在哪里? 不确定性在哪里? 如果失败,可能是哪一层失败?在预印本 World Models for Biomedicine: A Steerability Framework 中,我将这一问题组织为五个约束检查点:状态表征、能力量化、干预响应语义、反事实转移和质量控制反馈。该框架的核心观点是:医学世界模型不应只是被动预测系统,而应成为一个可审计、可质疑、可修正的 steerability framework。[1]
六、Harness Engineering 与 Steerable World Model 的区别二者的区别可以概括为一句话:
Harness engineering controls the AI system from outside.
Steerable world modeling structures biomedical reasoning from inside.
翻译成中文:
Harness engineering 从外部约束 AI。
Steerable world model 从内部组织医学推理。
更具体地说:
| 维度 | Harness Engineering | Steerable Biomedical World Model |
|---|---|---|
| 核心问题 | 如何让 AI 输出更安全? | 如何让生物状态转移可表征、可推演、可检查? |
| 主要对象 | 模型行为、工具调用、输出流程 | 生物状态、干预动作、状态转移、机制反馈 |
| 常见组件 | Prompt、RAG、Validator、Guardrail、Workflow | State、Action、Transition、Counterfactual、QC |
| 解决风险 | AI 行为风险 | 生物推理风险 |
| 失败诊断 | 输出是否违规?工具是否调用错误? | 状态测量是否错误?干预语义是否错误?转移假设是否错误? |
| 工程层级 | 外部安全层 | 内部世界模型层 |
| 典型目标 | 安全可控地输出 | 可审计地推演状态变化 |
可以进一步概括为:
Harness Engineering: LLM → safer output Steerable World Model: biological state → action → transition hypothesis → feedback两者并不对立。
严肃的医学 AI 需要二者同时存在。
但它们不能相互替代。
七、一个例子:药物相关性与状态转移假设假设某患者存在炎症相关异常。
一个医学知识库可能回答:
某药物与炎症通路有关。一个带有外部护栏的医学 AI 可能回答:
某药物与炎症通路有关,但本文仅供科普,不构成医疗建议,请咨询医生。这个回答比前者安全。
但它仍然不是医学世界模型。
一个可驾驭医学世界模型应进一步提出:
1. 当前炎症模块状态是什么? 2. 该患者的异常是否位于该药物相关通路中? 3. 该药物作为 action,其靶点、方向和模块响应是什么? 4. 该 action 是否可能使状态向期望方向移动? 5. 这种移动发生在分子层、功能层,还是表型层? 6. 如果干预失败,失败可能发生在哪个环节?也就是说:
知识库提供“相关知识”;
加护栏的 AI 提供“更安全的相关知识”;
可驾驭世界模型提供“状态—动作—转移—反馈”的证据链。
这三者属于不同层级。
八、医学世界模型的五个基本结构一个更接近医学世界模型的系统,至少需要五类结构。
1. 状态表征:State Representation首先,模型必须回答:
这个人现在是什么状态?
疾病名称不是充分的状态表征。
“糖尿病”“抑郁症”“类风湿关节炎”只是表型层标签。
医学世界模型需要更细粒度的状态空间,例如:
分子状态;
通路状态;
网络模块状态;
免疫状态;
代谢状态;
器官功能状态;
衰老模块状态;
个体历史轨迹。
关键不在于具体采用向量、图结构还是多模态嵌入,而在于:
2. 动作表征:Action Representation模型必须明确自己正在模拟什么状态。
医学中的 action 不能只是一个标签。
drug A exercise nutrition intervention sleep improvement这些只是表面名称。
在世界模型中,一个 action 应当包含:
A = { target_modules, mechanism, direction, dose, timing, duration, sequence, context, uncertainty }同样是运动,对不同个体可能代表不同的生物学含义:
个体 1:改善胰岛素敏感性 个体 2:增加炎症负荷 个体 3:改善线粒体适应能力 个体 4:过度训练导致恢复失败因此,医学 action 必须进入干预响应语义层,而不能只是数据库标签。
3. 状态转移估计:Transition Estimation世界模型的核心问题是:
S(t), A → Ŝ(t+Δt | A)即:
给定当前状态和候选动作,状态可能如何变化?
但在医学里,这一步必须非常谨慎。
早期系统不应声称:
模型已经预测治疗一定有效。更合适的说法是:
模型提出一个受机制约束、可审计的状态转移方向假设。也可称为:
knowledge-constrained transition tendency其含义是:
4. 反事实推理:Counterfactual Reasoning基于已有生物机制、网络结构、个体状态和干预语义,估计一个可能的状态变化方向,但仍需实验、随访或临床数据验证。
医学决策天然是反事实问题。
例如:
如果做 A 而不是 B,会怎样? 如果先做 A 再做 B,会怎样? 如果不干预,自然轨迹会怎样? 如果同一干预用于不同状态的人,会怎样?这类问题不能仅靠检索回答。
它需要模型能比较不同的状态转移假设:
Ŝ(t+Δt | A) Ŝ(t+Δt | B) Ŝ(t+Δt | no intervention)当然,这仍然不是已经验证的个体疗效预测,而是反事实状态转移假设的比较。
5. 质量控制反馈:Quality-Control Feedback医学世界模型不能只问:
如果这样做会怎样?
还必须问:
为什么没有发生预期结果?
如果预期状态转移没有发生,模型应能追问:
状态测量错了吗? 干预动作定义错了吗? 模块响应没有发生吗? 状态没有按预期移动吗? 下游表型没有传播吗? 剂量不对吗? 时间窗口不对吗? 个体基线不同吗?普通预测模型失败时,常常只能说:
prediction error可驾驭医学世界模型失败时,应当能够定位:
failure occurred at state measurement failure occurred at action semantics failure occurred at transition assumption failure occurred at downstream propagation这就是从 “what-if simulator” 走向 “why-not steering system”。
九、SteeraMed 的可能定位如果将 SteeraMed 理解为面向可驾驭医学 AI 的研究、方法或平台方向,那么它不应只是:
Medical LLM + RAG + safety guardrails这类系统固然有用,但主要属于医学 AI 的应用层。
更深的问题是:
How can medical AI become steerable rather than merely constrained?
也就是:
医学 AI 如何从“被约束”走向“可驾驭”?
从架构上看,SteeraMed 可以被设计为两层:
1. Harness Layer - 权限控制 - 安全边界 - 合规规则 - 输出校验 - 人工审核 - 审计日志 2. Steerability Layer - 状态表征 - 动作语义 - 反事实转移 - 机制证据链 - 质量控制反馈第一层回答:
AI 能不能安全说话?
第二层回答:
医学状态能不能被结构化推演和驾驭?
这两层缺一不可。
十、严肃医学 AI 系统的分层结构我认为,一个严肃的医学 AI 系统至少需要五层:
Human Oversight Layer 医生、研究者、用户、伦理监督 Clinical Governance Layer 适用范围、责任边界、监管要求 Harness Engineering Layer Prompt / RAG / Guardrail / Audit Steerable World Model Layer State / Action / Transition / QC Biomedical Data Layer Omics / EHR / Wearables / Imaging每一层解决不同问题:
| 层级 | 解决问题 |
|---|---|
| Biomedical Data Layer | 数据从哪里来 |
| Steerable World Model Layer | 生物状态如何建模和转移 |
| Harness Engineering Layer | AI 如何安全调用和输出 |
| Clinical Governance Layer | 系统是否适合真实场景 |
| Human Oversight Layer | 最终如何由人类判断 |
这一区分很重要。
不能用外部 guardrail 替代内部医学世界模型。
也不能用世界模型概念替代临床治理和安全验证。
十一、科学边界:这不是自动治疗系统必须特别说明:
可驾驭医学世界模型不等于临床自动化决策系统。
它不应被理解为:
AI 可以替代医生。 AI 可以自动推荐治疗。 AI 可以预测个体疗效。 AI 可以直接用于临床决策。更准确的定位是:
一个用于生成、组织和检验医学状态转移假设的研究架构。真正进入临床应用,还需要:
前瞻性验证;
临床试验;
安全性评估;
真实世界随访;
医生监督;
监管审查;
适用范围限定;
责任边界定义。
因此,在当前阶段,steerability 更适合作为:
研究框架 工程架构 机制推理系统 假设生成系统而不是已经完成的临床产品能力。
十二、结语:从“安全输出”到“可检查推理”今天许多医疗 AI 的发展路线是:
更大的模型 + 更多医学文献 + 更复杂 Agent Workflow + 更强 Guardrail这些都重要。
但我认为还不够。
医疗 AI 的下一步,还需要:
明确的状态表征 + 明确的动作语义 + 可检验的状态转移假设 + 可审计的机制链条 + 可诊断的反馈闭环一句话概括:
Harness engineering makes medical AI safer to use.
Steerable world modeling makes biomedical reasoning more inspectable.
中文可以说:
外部约束让医疗 AI 更安全。
可驾驭世界模型让医学推理更可检查。
第一代真正有价值的医学世界模型,可能并不是那些宣称能够预测一切治疗结果的系统。
相反,它们可能是更谦逊、更可审计、更可证伪的系统:
它们不宣称知道未来。
它们只是把每一个关于状态、动作、转移、机制和不确定性的假设,都明确到可以被测试。
这也许正是医疗 AI 从“预测工具”走向“可驾驭系统”的关键一步。
参考资料Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. DOI: 10.20944/preprints202605.0366.v1
SEWO / Steerable Medicine World Model
SteeraMed concept site
SteeraMed concept site
DeepOMe / 深度甲基
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 03:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社