phenome的个人博客分享 http://blog.sciencenet.cn/u/phenome

博文

世界模型的目标不是预测,而是可驾驭

已有 442 次阅读 2026-5-7 15:29 |个人分类:世界模型|系统分类:科研笔记

熊江辉

1. 问题的提出:预测精度是终点吗?

2026年,“世界模型”(World Model)在生物医学AI领域迅速成为核心叙事。从虚拟细胞到数字有机体,从高通量扰动建模到个体化治疗预测,多个研究团队和公司正致力于构建能够模拟生物系统行为的大规模模型。这些工作通常隐含一个共识:预测精度是评价世界模型优劣的首要指标。

这一共识在直觉上成立,却掩盖了一个关键问题:在临床决策语境下,预测本身只是手段,而非目的。疾病风险预测的终极价值不在于输出一个概率值,而在于支持一次靠谱的状态切换——从病理状态安全、有效、可预期地过渡到健康状态。如果一个模型能够精准预测某患者三年内心血管事件发生概率为47%,却无法回答“我应该往哪个方向干预?这一步下去,状态会如何转移?如果未达预期,问题出在哪个环节?”,那么该模型对临床决策的贡献仍然是有限的。

本文基于我们近期在Preprints.org上发布的预印本《World Models for Biomedicine: A Steerability Framework》,系统阐述一个观点:生物医学世界模型应当被重新定义为“可驾驭的世界模型”(Steerable World Model),其核心评价标准不应仅是预测精度,而应是可驾驭性(steerability)。

2. 预测范式的结构性局限

当前生物医学AI的主流范式是归纳预测:从大规模数据中学习输入-输出映射,并在测试集上评估泛化能力。这一范式在图像识别、自然语言处理等领域取得了显著成功,但在生物医学中面临几项结构性挑战。

其一,生物系统的行为不是由初始条件唯一决定的。 同一基因突变在不同表观遗传背景、不同用药历史和不同环境暴露下的表型效应可能截然不同。试图通过“更精细地表征初始条件”来穷尽所有相关变量,在开放、动态、与环境持续交互的生物系统中并不现实。

其二,“会发生什么”与“应该做什么”之间存在推理鸿沟。 预测模型回答的是前者,临床决策需要回答的是后者。后者不仅要求预测,还要求反事实推理(如果采用另一种干预会怎样)、偏差归因(为什么实际结果偏离了预期)和修正策略(下一步应如何调整)。

其三,失败模式不透明。 当纯归纳模型出错时,错误难以被拆解到具体环节。模型输出一个错误的预测,其原因可能是状态表征偏差、干预语义映射错误、未建模的混杂因素等,但系统无法自诊断。

这些局限并非预测精度的提升所能解决,因为它们属于范式层面的问题。

3. 一个比喻:骑手与马

为了重新定义生物医学世界模型的设计目标,我们引入一个比喻:骑手与马(Rider and Horse)

骑手并不试图操控马匹的每一块肌肉,他通过缰绳传递方向信号。马匹则依靠自身的平衡感和稳健性,在崎岖地形中自主调整步伐。这个二元系统的有效性依赖于两个条件:(1)骑手给出正确的方向性指引;(2)马匹具备内在的鲁棒性,能在不确定环境中维持稳定行进。

映射到生物医学AI语境:

  • 骑手对应临床医生或研究者,提供分阶段的指向性决策;

  • 马匹对应世界模型,必须具备面对噪声、缺失数据、分布偏移时的鲁棒性与确定性

  • 缰绳对应框架定义的可驾驭接口(steering interface),将医生的意图转化为模型可解析的输入,并将模型的推演结果转化为医生可审计的输出。

我们将这一框架命名为 SEWO(Steerable Medicine World Model),即“可驾驭医学世界模型”。其核心主张可概括为:Steering, not predicting(驾驭,而非预测)。

这一哲学并非AI领域的原创,它与当代医学干预的逻辑高度一致。以天然黄酮类化合物为例,其作用机制往往不是直接杀伤靶细胞,而是通过调控特定蛋白质-蛋白质相互作用(PPI)子网络,向细胞发出调控信号,由细胞自身的调节网络执行功能调整。药物营养素和运动干预的设计逻辑亦遵循同样原则:不是替代机体的修复机制,而是释放机体自身的修复与重塑潜力。SEWO 继承了这一思路,将其引入AI推演领域。

4. 可驾驭性的结构化要求:五个约束检查点

如果将“可驾驭性”确立为生物医学世界模型的核心设计目标,那么模型就不能仅是一个预测引擎,而必须满足一系列结构性约束。在预印本中,我们从“生命是适应能力的集合体”这一公设出发,推导出五个约束检查点(Constraint Checkpoints, CP1–CP5),它们构成一个闭环架构。

CP1 状态表征(State Representation):mIC向量。 生物状态不能仅用一个标量(如生物学年龄)概括,而应分解为多个功能模块的内在能力(Intrinsic Capability)。我们提出 mIC(module-level Intrinsic Capability)向量,将个体的生物状态表征为一幅多维“能力图谱”,每个维度对应一个功能模块(如免疫监视、线粒体适应、炎症消退等)的可调动能力。这使状态表征从描述性指标转变为干预相关的状态变量。

CP2 能力量化(Capability Quantification)。 每个模块的内在能力必须可量化。在我们的Capomics测量体系中,通过通路老化指数(Pathway Aging Index, PAI)定义能力指数 CI = 1 − PAI,将DNA甲基化等分子读数转化为具有明确生物学语义的能力指标。

CP3 干预-响应语义(Input–Response Semantics)。 环境扰动、药物干预、营养调整等外部输入,必须被映射为模型可解析的干预信号,且该映射需具备生物学语义。同一干预在不同起始mIC状态下的响应模式可能不同,这正是“平均有效不等于对特定个体有效”的结构性原因。

CP4 反事实转移(Counterfactual Transition)。 模型必须能够回答“如果未施加该干预,系统会如何演化”。反事实推理是因果推断的核心,在演绎约束框架下,反事实转移沿着预先声明的因果支架(根因→功能→表型)进行,而非依赖统计外推。

CP5 质量控制反馈(Quality Control Feedback)。 这是当前世界模型普遍缺失的环节。当预期状态变化未发生时,模型应能够诊断失败发生在哪个环节:状态测量有误?干预方案设计不当?模块响应偏离预期?mIC转移方向错误?下游表型传播受阻?我们将这一自诊断机制称为“五门检查”:状态 → 干预 → 响应 → ΔmIC → 表型。每一步均可被独立审计、独立质疑、独立证伪。

这五个检查点的数量并非随意确定。若仅有四个,闭环将缺失纠正环节,沦为开环;若增加至六个,则检测与纠正功能将被拆分,违反功能内聚原则。五个检查点恰好构成一个完整闭环:定义状态、测量状态、设计干预、模拟转移、检查偏差、修正迭代。

5. 演绎约束:一种不同的方法论

多数AI模型采用归纳方法:从数据中学习模式,再用模式进行推理。SEWO框架采用演绎约束(deductive constraints) 的方法论:从关于生物系统的基本事实出发,推导出模型必须满足的结构约束,然后用数据填充参数。

结构由演绎决定,参数由数据校准。这一方法论的优势在于:当模型失败时,失败可被追溯至某个显式的前提或条件,而非整体性的黑箱失效。这种方法也与监管科学中日益受到重视的“机制框架”(如FDA 2026年Plausible Mechanism Framework草案)形成自然对应,后者强调明确因果异常、机制参与和临床意义改善的三要素。

6. 当前局限与后续工作

需要指出,该框架目前处于理论建构与早期验证阶段。几项主要局限应予明确:(1)mIC向量的计算依赖从DNA甲基化到通路再到功能模块的多层映射,每一步均涉及假设与近似,从概念到可靠测量的距离尚需大量实验校准;(2)演绎约束要求预先声明因果支架,若初始声明本身有误,框架能否有效自我证伪,仍需操作化的证伪标准;(3)框架与现有实际系统(如虚拟细胞模型、大规模生物基础模型)的具体对接方式尚待技术化;(4)实证验证目前仅限于若干已公开的GEO干预数据集,大规模前瞻性验证尚未开展。

尽管如此,如果生物医学世界模型的长期目标是成为临床决策中可信赖的协作工具,那么“可驾驭性”就不是锦上添花,而应被视为一项必要属性。

7. 结语

预测是手段,靠谱的状态切换才是目的。生物医学世界模型的终极使命,不是成为一台更精准的预言机器,而是成为一匹识途的马——它自己站得稳、走得远,而医生只需给出正确的方向。我们将这一方向定义为可驾驭性(steerability),并认为它是可信赖生物医学AI的基石。

参考文献与链接



https://blog.sciencenet.cn/blog-508476-1533759.html

上一篇:奇点:万亿赛道——长寿科学进入指数增长期
下一篇:从平均值到网络落差:SEMO专利背后的方法论转向
收藏 IP: 222.128.181.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 06:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部