phenome的个人博客分享 http://blog.sciencenet.cn/u/phenome

博文

医学 AI 的下一步:不只是安全护栏,而是可驾驭世界模型

已有 556 次阅读 2026-5-17 22:02 |个人分类:世界模型|系统分类:科研笔记

医学世界模型:从外部“约束”到内部“可驾驭”——关于 Harness Engineering 与 Steerable Biomedical World Model 的一点思考

熊江辉

近年来,大模型、AI Agent、RAG、工具调用和多智能体系统迅速进入医疗健康领域。围绕医疗 AI 的讨论,也越来越多地集中在一个现实问题上:

如何让 AI 不乱说?

如何避免 AI 给出处方?

如何防止模型编造文献?

如何让医学 AI 的输出更安全、更合规?

这些问题非常重要。

在医学场景中,任何一个错误回答都可能带来误导、延误甚至风险。因此,医疗 AI 必须有严格的外部约束、流程控制和人类监督。

但是,我想提出另一个问题:

如果一个医学 AI 系统已经有了安全护栏,它是否就具备了医学世界模型能力?

我的回答是:不一定。

一个带有外部护栏的医学 AI 系统,可以更安全地输出信息;但医学世界模型真正要解决的,是另一个更深层的问题:

生物状态如何被表征?

干预动作如何被建模?

状态转移如何被推演?

如果结果没有按预期发生,失败原因如何被诊断?

这一区分,涉及两个概念:

  • Harness Engineering:外部约束工程;

  • Steerable Biomedical World Model:可驾驭的生物医学世界模型。

前者主要处理 AI 系统的行为边界。

后者试图处理生物系统的状态转移与反馈修正。

这两者都重要,但它们不是同一件事。

一、什么是 Harness Engineering?

“Harness”一词原意是马具、挽具、束具。放到 AI 系统中,可以理解为:

通过外部工程结构,对一个强大的 AI 模型进行包裹、约束、调度和验证,使其行为更可控、更安全、更可审计。

在当前大模型工程中,广义的 harness engineering 包括:

  • system prompt;

  • prompt template;

  • RAG 检索增强;

  • tool calling;

  • workflow 编排;

  • 输出验证器;

  • safety filter;

  • rule engine;

  • human-in-the-loop;

  • 权限控制;

  • 审计日志;

  • 沙盒执行;

  • 高风险场景转人工。

如果用一个简单流程表示,可以写成:

用户输入 ↓ 意图识别 / 风险分类 ↓ 知识检索 / 工具调用 ↓ 大模型生成 ↓ 输出验证 ↓ 安全过滤 ↓ 必要时人工审核 ↓ 最终输出

在软件工程中,这种做法非常有效。

例如代码生成系统可以通过单元测试、类型检查、静态分析、沙盒运行和人工 review,降低模型错误带来的风险。

在医学 AI 中,harness engineering 更是必要的。因为医疗场景天然高风险,一个医学 AI 系统至少应当避免:

  • 编造医学依据;

  • 越权诊断;

  • 擅自推荐药物;

  • 混淆科普信息与医疗建议;

  • 忽视急症或禁忌证;

  • 过度解释检查结果;

  • 延误患者就医;

  • 夸大干预效果。

因此,医疗 AI 必须有护栏。

但问题在于:

有护栏,不等于有世界模型。

二、外部护栏解决的是 AI 行为风险

Harness engineering 主要回答的是:

AI 是否乱说? AI 是否越界? AI 是否伪造引用? AI 是否给出危险建议? AI 是否违反产品边界?

这些问题属于 AI 行为风险

例如,一个医学 AI 问答系统可以通过外部规则要求模型:

  • 不直接诊断;

  • 不给出处方;

  • 不替代医生;

  • 高风险问题提示就医;

  • 引用可靠资料;

  • 对不确定性进行说明。

这样可以显著提高输出安全性。

但是,医学 AI 还有另一类风险:

患者状态是否表征正确? 干预动作是否建模正确? 机制链条是否成立? 状态转移方向是否合理? 分子变化能否传导到功能变化? 功能变化能否传导到临床获益? 失败原因能否被定位?

这些问题属于 生物推理风险

生物推理风险不能仅靠 prompt、RAG 或 guardrail 解决。

它需要模型对生物状态、干预动作、状态转移和反馈机制有更内在的结构化表达。

这就是医学世界模型要面对的问题。

三、医学世界模型不只是“医疗大模型 + 工具链”

目前许多医疗 AI 系统在技术上已经相当复杂:

LLM + 医学知识库 + RAG + 工具调用 + 多 Agent 协作 + 报告生成 + 安全过滤 + 医生审核

这类系统有实际价值。

它们可以用于病历摘要、文献综述、报告解释、指南检索、科研辅助和健康科普。

但严格来说,它们不一定是医学世界模型。

因为医学世界模型至少需要回答以下问题:

  1. 当前生物状态是什么?

  2. 干预动作如何表示?

  3. 给定当前状态与候选动作,状态可能如何转移?

  4. 如果选择另一种动作,反事实路径如何变化?

  5. 如果观察结果偏离预期,失败发生在哪一层?

换句话说:

有 RAG ≠ 有状态表征 有 Agent ≠ 有状态转移模型 有 workflow ≠ 有世界模型 有 guardrail ≠ 有可驾驭性

医疗 AI 能否安全回答问题,与它是否具备生物状态转移推理能力,是两个不同层级的问题。

四、什么是医学世界模型?

在机器人、游戏智能体和控制系统中,世界模型通常可以简化为:

当前状态 + 动作 → 下一状态

即:

S(t), A → S(t+Δt)

例如:

机器人当前位置 + 电机动作 → 下一位置

或:

当前游戏画面 + 玩家动作 → 下一帧状态

但医学场景中的状态与动作都更复杂。

医学中的“状态”不是一个简单坐标,也不只是疾病名称。它可能包括:

  • 分子网络状态;

  • DNA 甲基化状态;

  • 转录组状态;

  • 蛋白组状态;

  • 免疫状态;

  • 炎症状态;

  • 代谢状态;

  • 器官功能;

  • 通路活性;

  • 衰老模块状态;

  • 个体基线;

  • 时间轨迹;

  • 环境暴露。

医学中的“动作”也不只是一个离散命令。它可能包括:

  • 药物;

  • 剂量;

  • 时间;

  • 干预顺序;

  • 营养;

  • 运动;

  • 睡眠;

  • 行为改变;

  • 细胞治疗;

  • 联合干预;

  • 随访策略。

因此,医学世界模型更严谨的表达应当是:

当前分子 / 功能状态 + 候选干预动作 → 可检验的生物状态转移方向假设

这里必须强调“假设”二字。

在当前阶段,大多数医学世界模型尚不具备充分的纵向干预数据,不能直接声称能够预测个体治疗效果。更合适的定位是:

生成可审计、可验证、可反驳的状态转移假设。

也就是说,早期医学世界模型更像是:

state-action-transition hypothesis system

而不是:

validated clinical decision system五、“可驾驭”不是自动治疗决策

“可驾驭”这个词容易被误解。

它不是指 AI 自动控制人体,也不是指 AI 替代医生做治疗决策。

我所说的 steerability,更接近以下含义:

模型能够把状态、动作、转移假设、机制证据、不确定性和反馈检查显式化,使人类能够审查、质疑和修正推理路径。

也就是说,模型不是简单输出:

推荐某干预。

而是给出一条可以被检查的链条:

当前状态是什么? 候选动作是什么? 为什么认为该动作与当前状态相关? 预计状态向哪个方向变化? 机制证据在哪里? 不确定性在哪里? 如果失败,可能是哪一层失败?

在预印本 World Models for Biomedicine: A Steerability Framework 中,我将这一问题组织为五个约束检查点:状态表征、能力量化、干预响应语义、反事实转移和质量控制反馈。该框架的核心观点是:医学世界模型不应只是被动预测系统,而应成为一个可审计、可质疑、可修正的 steerability framework。[1]

六、Harness Engineering 与 Steerable World Model 的区别

二者的区别可以概括为一句话:

Harness engineering controls the AI system from outside.

Steerable world modeling structures biomedical reasoning from inside.

翻译成中文:

Harness engineering 从外部约束 AI。

Steerable world model 从内部组织医学推理。

更具体地说:

维度Harness EngineeringSteerable Biomedical World Model
核心问题如何让 AI 输出更安全?如何让生物状态转移可表征、可推演、可检查?
主要对象模型行为、工具调用、输出流程生物状态、干预动作、状态转移、机制反馈
常见组件Prompt、RAG、Validator、Guardrail、WorkflowState、Action、Transition、Counterfactual、QC
解决风险AI 行为风险生物推理风险
失败诊断输出是否违规?工具是否调用错误?状态测量是否错误?干预语义是否错误?转移假设是否错误?
工程层级外部安全层内部世界模型层
典型目标安全可控地输出可审计地推演状态变化

可以进一步概括为:

Harness Engineering: LLM → safer output Steerable World Model: biological state → action → transition hypothesis → feedback

两者并不对立。

严肃的医学 AI 需要二者同时存在。

但它们不能相互替代。

七、一个例子:药物相关性与状态转移假设

假设某患者存在炎症相关异常。

一个医学知识库可能回答:

某药物与炎症通路有关。

一个带有外部护栏的医学 AI 可能回答:

某药物与炎症通路有关,但本文仅供科普,不构成医疗建议,请咨询医生。

这个回答比前者安全。

但它仍然不是医学世界模型。

一个可驾驭医学世界模型应进一步提出:

1. 当前炎症模块状态是什么? 2. 该患者的异常是否位于该药物相关通路中? 3. 该药物作为 action,其靶点、方向和模块响应是什么? 4. 该 action 是否可能使状态向期望方向移动? 5. 这种移动发生在分子层、功能层,还是表型层? 6. 如果干预失败,失败可能发生在哪个环节?

也就是说:

  • 知识库提供“相关知识”;

  • 加护栏的 AI 提供“更安全的相关知识”;

  • 可驾驭世界模型提供“状态—动作—转移—反馈”的证据链。

这三者属于不同层级。

八、医学世界模型的五个基本结构

一个更接近医学世界模型的系统,至少需要五类结构。

1. 状态表征:State Representation

首先,模型必须回答:

这个人现在是什么状态?

疾病名称不是充分的状态表征。

“糖尿病”“抑郁症”“类风湿关节炎”只是表型层标签。

医学世界模型需要更细粒度的状态空间,例如:

  • 分子状态;

  • 通路状态;

  • 网络模块状态;

  • 免疫状态;

  • 代谢状态;

  • 器官功能状态;

  • 衰老模块状态;

  • 个体历史轨迹。

关键不在于具体采用向量、图结构还是多模态嵌入,而在于:

模型必须明确自己正在模拟什么状态。

2. 动作表征:Action Representation

医学中的 action 不能只是一个标签。

drug A exercise nutrition intervention sleep improvement

这些只是表面名称。

在世界模型中,一个 action 应当包含:

A = { target_modules, mechanism, direction, dose, timing, duration, sequence, context, uncertainty }

同样是运动,对不同个体可能代表不同的生物学含义:

个体 1:改善胰岛素敏感性 个体 2:增加炎症负荷 个体 3:改善线粒体适应能力 个体 4:过度训练导致恢复失败

因此,医学 action 必须进入干预响应语义层,而不能只是数据库标签。

3. 状态转移估计:Transition Estimation

世界模型的核心问题是:

S(t), A → Ŝ(t+Δt | A)

即:

给定当前状态和候选动作,状态可能如何变化?

但在医学里,这一步必须非常谨慎。

早期系统不应声称:

模型已经预测治疗一定有效。

更合适的说法是:

模型提出一个受机制约束、可审计的状态转移方向假设。

也可称为:

knowledge-constrained transition tendency

其含义是:

基于已有生物机制、网络结构、个体状态和干预语义,估计一个可能的状态变化方向,但仍需实验、随访或临床数据验证。

4. 反事实推理:Counterfactual Reasoning

医学决策天然是反事实问题。

例如:

如果做 A 而不是 B,会怎样? 如果先做 A 再做 B,会怎样? 如果不干预,自然轨迹会怎样? 如果同一干预用于不同状态的人,会怎样?

这类问题不能仅靠检索回答。

它需要模型能比较不同的状态转移假设:

Ŝ(t+Δt | A) Ŝ(t+Δt | B) Ŝ(t+Δt | no intervention)

当然,这仍然不是已经验证的个体疗效预测,而是反事实状态转移假设的比较。

5. 质量控制反馈:Quality-Control Feedback

医学世界模型不能只问:

如果这样做会怎样?

还必须问:

为什么没有发生预期结果?

如果预期状态转移没有发生,模型应能追问:

状态测量错了吗? 干预动作定义错了吗? 模块响应没有发生吗? 状态没有按预期移动吗? 下游表型没有传播吗? 剂量不对吗? 时间窗口不对吗? 个体基线不同吗?

普通预测模型失败时,常常只能说:

prediction error

可驾驭医学世界模型失败时,应当能够定位:

failure occurred at state measurement failure occurred at action semantics failure occurred at transition assumption failure occurred at downstream propagation

这就是从 “what-if simulator” 走向 “why-not steering system”。

九、SteeraMed 的可能定位

如果将 SteeraMed 理解为面向可驾驭医学 AI 的研究、方法或平台方向,那么它不应只是:

Medical LLM + RAG + safety guardrails

这类系统固然有用,但主要属于医学 AI 的应用层。

更深的问题是:

How can medical AI become steerable rather than merely constrained?

也就是:

医学 AI 如何从“被约束”走向“可驾驭”?

从架构上看,SteeraMed 可以被设计为两层:

1. Harness Layer - 权限控制 - 安全边界 - 合规规则 - 输出校验 - 人工审核 - 审计日志 2. Steerability Layer - 状态表征 - 动作语义 - 反事实转移 - 机制证据链 - 质量控制反馈

第一层回答:

AI 能不能安全说话?

第二层回答:

医学状态能不能被结构化推演和驾驭?

这两层缺一不可。

十、严肃医学 AI 系统的分层结构

我认为,一个严肃的医学 AI 系统至少需要五层:

Human Oversight Layer 医生、研究者、用户、伦理监督 Clinical Governance Layer 适用范围、责任边界、监管要求 Harness Engineering Layer Prompt / RAG / Guardrail / Audit Steerable World Model Layer State / Action / Transition / QC Biomedical Data Layer Omics / EHR / Wearables / Imaging

每一层解决不同问题:

层级解决问题
Biomedical Data Layer数据从哪里来
Steerable World Model Layer生物状态如何建模和转移
Harness Engineering LayerAI 如何安全调用和输出
Clinical Governance Layer系统是否适合真实场景
Human Oversight Layer最终如何由人类判断

这一区分很重要。

不能用外部 guardrail 替代内部医学世界模型。

也不能用世界模型概念替代临床治理和安全验证。

十一、科学边界:这不是自动治疗系统

必须特别说明:

可驾驭医学世界模型不等于临床自动化决策系统。

它不应被理解为:

AI 可以替代医生。 AI 可以自动推荐治疗。 AI 可以预测个体疗效。 AI 可以直接用于临床决策。

更准确的定位是:

一个用于生成、组织和检验医学状态转移假设的研究架构。

真正进入临床应用,还需要:

  • 前瞻性验证;

  • 临床试验;

  • 安全性评估;

  • 真实世界随访;

  • 医生监督;

  • 监管审查;

  • 适用范围限定;

  • 责任边界定义。

因此,在当前阶段,steerability 更适合作为:

研究框架 工程架构 机制推理系统 假设生成系统

而不是已经完成的临床产品能力。

十二、结语:从“安全输出”到“可检查推理”

今天许多医疗 AI 的发展路线是:

更大的模型 + 更多医学文献 + 更复杂 Agent Workflow + 更强 Guardrail

这些都重要。

但我认为还不够。

医疗 AI 的下一步,还需要:

明确的状态表征 + 明确的动作语义 + 可检验的状态转移假设 + 可审计的机制链条 + 可诊断的反馈闭环

一句话概括:

Harness engineering makes medical AI safer to use.

Steerable world modeling makes biomedical reasoning more inspectable.

中文可以说:

外部约束让医疗 AI 更安全。

可驾驭世界模型让医学推理更可检查。

第一代真正有价值的医学世界模型,可能并不是那些宣称能够预测一切治疗结果的系统。

相反,它们可能是更谦逊、更可审计、更可证伪的系统:

它们不宣称知道未来。

它们只是把每一个关于状态、动作、转移、机制和不确定性的假设,都明确到可以被测试。

这也许正是医疗 AI 从“预测工具”走向“可驾驭系统”的关键一步。

参考资料
  1. Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. DOI: 10.20944/preprints202605.0366.v1

    DOI 链接:https://doi.org/10.20944/preprints202605.0366.v1

  2. SEWO / Steerable Medicine World Model

    https://steerable.world

  3. SteeraMed concept site

    https://steeramed.com

  4. SteeraMed concept site

    https://steeramed.org

  5. DeepOMe / 深度甲基

    https://deepome.com



https://blog.sciencenet.cn/blog-508476-1535251.html

上一篇:从FDA政策演变,看长寿医学的未来:从“千人一药”,走向“可测量、可解释、可追踪的 N-of-1 证据链”
下一篇:从医疗人工智能到医学世界模型:关于“干预后果推演”的若干思考
收藏 IP: 114.249.208.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 03:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部