||
作者:熊江辉
摘要医学人工智能正在从影像识别、疾病风险预测、医学问答和文献总结,逐步走向更复杂的“医学世界模型”(medical world model)阶段。与传统 AI 模型不同,医学世界模型真正需要处理的问题不是简单的“样本—标签”映射,而是“状态—干预—转移”:在一个可测量的生命状态下,某种干预可能使系统朝什么方向变化。本文提出一个观点:医学 AI 的下一个关键瓶颈,可能不只是模型规模,而是缺少类似 ImageNet 之于计算机视觉那样的基础设施——一种能够系统记录、标准化和评估“生物状态—干预动作—后续状态变化”的数据与基准体系。本文仅讨论为什么需要这样的基础设施、它的大致意义、可能特征与主要挑战,不涉及具体实施路线。
一、从 ImageNet 说起:AI 进步有时不是先来自模型,而是先来自基础设施过去十几年,人工智能最重要的转折点之一,并不只是某一个模型突然变得更聪明,而是计算机视觉领域有了一个共同基础设施:ImageNet。
ImageNet 表面上是一个大规模图像数据库,但其真正意义并不只是“图片多”。它通过层级化标签体系、标准化任务和公开评测机制,为计算机视觉建立了一个共同坐标系。正是在这样的坐标系下,不同算法、不同模型、不同实验室的结果才可以被比较、复现和迭代。ImageNet Large Scale Visual Recognition Challenge(ILSVRC)也因此成为推动深度学习视觉模型快速发展的重要基准之一。
换句话说,ImageNet 的价值不只是数据量,而是它定义了:
什么是任务;
什么是标签;
什么是训练集与测试集;
什么是可以比较的模型进步。
今天,医学 AI 似乎也来到了类似阶段。
我们已经看到越来越多的医学大模型、医学问答系统、多模态医学 AI、组学基础模型、虚拟细胞模型、数字孪生和 AI 药物发现平台。但我认为,医学 AI 真正缺少的,可能不是又一个更大的模型,而是一个能够让医学世界模型持续进步的基础设施。
更准确地说,医学世界模型需要的不是传统意义上的 ImageNet,而是一个面向生命系统动态变化的 TransitionNet:
一个能够系统记录“当前生物状态—干预动作—后续状态变化”的基础数据与评估体系。
在图像识别中,经典任务可以简化为:
image → label
而在医学世界模型中,真正关键的任务更接近:
state + action → next state
也就是:
当前生命状态 + 干预动作 → 后续状态变化
这正是医学世界模型区别于传统医学 AI 的地方。
传统医学 AI 更多回答:
这个影像是否提示某种病变?
这个人未来风险是否升高?
这段病历对应什么诊断?
这篇文献主要说了什么?
而医学世界模型更进一步要问:
二、医学 AI 的瓶颈,不只是模型参数,而是数据结构如果我们对一个生命系统施加某种干预,它可能朝什么方向变化?
过去几年,医学 AI 的一个主旋律是“大模型”。
更大的语言模型、更大的多模态模型、更大的医学知识库、更强的问答能力和更好的文献总结能力,确实推动了医学 AI 的发展。
但医学的核心问题并不只是“回答医学问题”,而是理解和改变生命轨迹。
一个医生面对患者时,真正重要的不只是判断“这是什么病”,还包括:
当前状态是如何形成的?
哪些因素正在推动系统恶化?
哪些节点可能被干预?
哪种干预可能带来状态改善?
改善应该通过哪些指标验证?
如果没有改善,原因在哪里?
如果出现副作用,系统为何偏离预期?
这些问题本质上不是单纯的知识问答问题,而是状态转移问题。
也就是说,医学 AI 的下一个阶段,不只是要让模型读懂医学知识,而是要让模型逐步学习:
生命系统如何响应干预。
这需要一种新的数据结构。
今天许多医学数据是静态的、孤立的、横截面的:
有检测数据,但没有干预记录;
有干预记录,但没有复测;
有复测,但缺少剂量、时间、依从性信息;
有临床结果,但缺少机制标注;
有组学数据,但缺少状态转移;
有病例描述,但缺少可计算的前后变化。
这样的数据当然有价值,但它们很难支撑真正意义上的医学世界模型。
医学世界模型真正需要的是:
longitudinal state–action–next-state data
即:
纵向的“状态—动作—下一状态”数据。
这可能是医学世界模型最重要的燃料。
三、医学需要的不是普通数据库,而是状态转移基础设施如果说 ImageNet 的基本样本可以理解为:
图像 + 标签
那么医学世界模型所需的数据单元则更接近:
干预前状态 + 干预动作 + 干预后状态变化
这意味着,医学世界模型的“ImageNet”不应该只是病例库、影像库、组学仓库、文献知识图谱或电子病历大表。
它应该至少包含五个层面:
State representation:状态表示
如何表示一个人的当前生物状态?
这可能包括分子、细胞、通路、器官、表型、生活方式和临床背景。
Action ontology:干预动作本体
如何标准化描述药物、营养、运动、睡眠、心理压力管理、细胞治疗等干预?
Transition record:状态转移记录
如何记录干预后状态发生了什么变化?变化发生在什么时间尺度?幅度多大?是否可重复?
Evidence chain:机制证据链
如何连接靶点、通路、表型、验证指标、安全信号与不确定性?
Benchmark task:基准任务
如何评价模型是否真的学会了状态转移,而不是只学会了相关性或文献复述?
这才是医学世界模型真正需要的基础设施。
它的目标不是把医学问题简单变成分类问题,而是为医学 AI 建立一个新的共同坐标系。
四、从“识别疾病”到“模拟干预”医学 AI 的第一阶段,可以说是识别。
识别影像中的病灶,识别病历中的诊断,识别基因变异的风险,识别一个人是否属于某种疾病亚型。
医学 AI 的第二阶段,是预测。
预测疾病风险、住院概率、药物反应、复发可能或生存期。
但医学 AI 的第三阶段,可能是模拟干预。
不是只问:
这个人未来风险高不高?
而是问:
哪些干预可能改变这个人的未来轨迹?
这一步是从 prediction 到 intervention reasoning 的转变。
它要求模型不再只是建立“特征—标签”的映射,而是逐步学习:
状态如何形成,干预如何作用,系统如何转移,证据如何验证。
这也是“世界模型”概念对医学有启发意义的地方。
在强化学习、机器人和自动驾驶中,世界模型的价值在于帮助智能体模拟行动后果、比较不同选择,并进行规划。当然,医学不能简单照搬这些领域。人体不是游戏环境,生命系统不能随意试错,临床干预也不能由模型自动决定。
但医学确实需要一种更加谨慎、可审计、可验证的世界模型思想:
不是为了让 AI 任意控制人体,而是为了让医学干预的状态转移逻辑变得更清楚。
医学世界模型的意义,不是制造一个更大的黑箱,而是建立一个更可审计的生命系统模拟框架。
五、医学世界模型并非凭空出现:从心脏电生理建模到虚拟细胞医学世界模型并不是一个凭空出现的新概念。
从更长的科学史看,医学一直在尝试建立人体系统的可计算模型。心脏电生理建模、虚拟心脏和数字孪生,就是其中非常重要的先例。
例如,张恒贵教授及相关团队长期从事心脏细胞、组织和三维心脏电活动的数学建模与仿真工作。相关研究通过离子通道动力学、组织传导模型、三维解剖结构和电生理方程,模拟心律失常、电传播、缺血状态和心电图变化。这样的研究体现了医学系统建模的重要传统:通过结构、机制、动力学和可验证输出,将生命系统的某一部分转化为可计算、可模拟、可检验的模型。
这类工作给我们的启发是:
真正有价值的医学模型,往往不是黑箱分类器,而是能够把结构、机制、动力学和可验证输出连接起来的系统模型。
今天的虚拟细胞、数字孪生和医学世界模型,可以看作这种系统建模传统在 AI、多组学和真实世界数据时代的扩展。
例如,Arc Institute 发布的 State 模型,尝试预测不同细胞状态下对药物、细胞因子和基因扰动的响应。公开资料显示,State 训练使用了大规模观测细胞和扰动细胞数据,目标是预测细胞扰动响应。这里需要注意的是,State 主要处在细胞层面的扰动响应建模,并不等同于完整的人体医学世界模型,但它为 state–perturbation–response 范式提供了重要参考。
另外,近期也有研究直接使用 Medical World Model 概念,例如 MeWM(Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning)尝试在治疗条件下生成性模拟肿瘤未来状态。这类研究说明,医学 AI 正在从静态识别和风险预测,逐步走向干预条件下的状态模拟。
但要让这种方向真正走向可积累、可比较、可验证的科学基础设施,仅有模型还不够。我们还需要类似 ImageNet 那样的共同数据结构和评估体系。
不同的是,医学世界模型需要的不是:
image → label
而是:
state + action → next state
也就是:
六、为什么还需要“可驾驭性”?当前生命状态 + 干预动作 → 后续状态变化。
医学世界模型如果只是预测器,仍然不够。
一个模型可以预测一个人的风险升高,但这并不自动告诉我们如何改变这个轨迹。医学真正关心的是:
哪些状态可以被测量?
哪些异常可以被解释?
哪些干预可以被描述?
哪些转移可以被验证?
哪些偏差可以被追踪?
哪些失败可以被反思和修正?
在这一点上,我们此前提出的 SEWO / Steerable Medicine World Model(可驾驭医学世界模型) 框架,强调医学世界模型不能只追求预测准确率,而应具备可定义状态、可描述干预、可推演转移、可审计机制、可追踪偏差的能力。
相关思想已在预印本 World Models for Biomedicine: A Steerability Framework 中提出,并在 steerable.world 上进行了框架化呈现。
需要强调的是,这一框架并不是一个已经验证的临床治疗系统,而是一种面向未来生物医学世界模型的结构约束和证据链设计原则。它提醒我们,医学世界模型的关键不只是“能预测什么”,而是:
能否被研究者和医生在明确边界内审计、质疑、修正和驾驭。
这也是医学世界模型与普通大模型非常不同的地方。
普通大模型更像知识和语言系统;医学世界模型必须进一步成为状态、干预、转移和反馈系统。它不能只会说,还必须能被验证。
七、为什么现在是窗口期?我认为,现在讨论“医学世界模型的 ImageNet”,并不算太早。
原因至少有五个。
第一,多组学检测正在成熟基因组、转录组、蛋白组、代谢组、DNA 甲基化组、单细胞组学等技术,正在让我们越来越有能力测量生命系统的内部状态。
过去医学更多依赖表型、影像和常规实验室检查。现在,我们开始能够看到更底层的分子扰动、通路变化和细胞状态。
没有状态测量,就没有世界模型。
第二,纵向健康数据正在增加可穿戴设备、连续血糖监测、长期体检、家庭检测、远程随访和数字健康平台,正在让个体健康轨迹变得更加可记录。
医学数据正在从单点快照走向连续时间序列。
这对世界模型非常关键,因为世界模型关心的不是某一刻“是什么”,而是系统如何随时间变化。
第三,干预数据正在变得更丰富药物、营养、运动、睡眠、心理压力、补充剂、细胞治疗、再生医学和生活方式管理,都可以成为医学世界模型中的 action。
过去这些数据常常很混乱,但如果能够标准化记录,它们就可能成为宝贵的状态转移数据。
第四,AI 世界模型成为下一代 AI 的重要方向世界模型正在成为 AI 领域的重要方向之一。无论是机器人、自动驾驶、物理世界模拟,还是生成式环境建模,本质上都在探索一个问题:
模型如何理解世界随行动而变化?
医学也需要这个能力。只不过医学世界模型不能追求炫目的生成效果,而必须追求机制可信、边界清楚、验证严格和安全可控。
第五,个体化医学正在逼近 N-of-1 时代未来医学越来越不只是“平均有效”,而是要回答:
对这个人,在这个状态下,什么干预可能有效?
这天然需要 N-of-1 状态转移数据。
一个结构化的 N-of-1 干预,本质上就是一次小型世界模型实验:
individual state → intervention → individual transition
如果这类数据能够被标准化、复测、验证和积累,它将成为医学世界模型的重要燃料。
八、为什么长寿医学可能是起点之一?如果要为医学世界模型建立类似 ImageNet 的基础设施,长寿医学可能是一个值得关注的起点。
这里需要谨慎说明:长寿医学并不是唯一合适的起点。肿瘤、心血管疾病、免疫疾病、代谢病、虚拟细胞和药物扰动响应等方向,都有可能成为医学世界模型的重要切入点。
但长寿医学有几个特殊优势。
第一,衰老是连续状态,不是单一疾病标签传统疾病往往以诊断标签为中心。
但衰老不是一个简单标签。它是一个连续变化的系统状态,涉及炎症、代谢、免疫、线粒体功能、表观遗传、蛋白稳态、干细胞耗竭和细胞衰老等多个层面。
这很适合世界模型,因为世界模型处理的不是静态分类,而是动态状态。
第二,长寿医学天然需要复测长寿医学关心的不是一次性诊断,而是长期轨迹。
一个干预是否有意义,必须通过数月、数年甚至更长时间的复测来判断。
这天然形成:
baseline state → intervention → follow-up state
也就是世界模型所需要的状态转移结构。
第三,长寿干预天然多样饮食、运动、睡眠、压力管理、药物、补充剂、细胞治疗、再生医学和环境暴露管理,都可能影响衰老状态。
这为 action ontology 提供了丰富场景。
第四,个体差异巨大同样的干预,不同人的响应可能不同。
这意味着长寿医学不能只依赖平均效应,而必须关注个体状态、个体响应和个体轨迹。
这正是 N-of-1 状态转移建模的核心。
第五,长寿医学需要新的信任基础当前长寿产业面临的一个重要问题,是证据和信任不足。
用户不知道哪些干预真正有用;医生难以评估复杂组合干预;企业很难证明长期价值;投资人也难以判断平台是否有真正护城河。
如果能建立一套“状态—干预—转移”的数据基础设施,长寿医学就可能从经验驱动和营销驱动,逐步走向证据驱动。
九、这件事的真正价值:定义下一代 AI 医学基础设施医学世界模型的 ImageNet,一旦建立,其意义不只是训练几个模型。
它可能改变整个医学 AI 的基础逻辑。
1. 改变医学 AI 的竞争壁垒未来医学 AI 的核心竞争,不一定是谁有最大模型,而是谁有最好的状态转移数据。
大模型可以调用,算法可以追赶,界面可以复制。但高质量、可复测、可验证、可追踪的状态转移数据,很难短期复制。
谁能建立这个数据飞轮,谁就可能拥有真正的平台级壁垒。
2. 改变医学研究的组织方式传统医学研究往往围绕疾病、药物或终点组织。
未来一部分医学研究,可能会围绕状态转移组织:
哪类状态,经过哪类干预,最可能产生哪种转移?
这会让医学研究从“疾病标签中心”逐渐走向“动态系统中心”。
3. 改变个体化医学的证据结构个体化医学最大的问题之一,是证据难。
大规模随机对照试验适合评估群体平均效应,但不一定能回答每个个体的状态转移问题。
如果能够系统积累 N-of-1 状态转移数据,就可能形成一种新的证据补充方式:
群体证据 + 机制证据 + 个体状态转移证据
这对精准医学、长寿医学、罕见病和复杂慢病管理都有潜在意义。
4. 改变 AI 药物发现AI 药物发现不能只停留在靶点预测、分子生成和结合亲和力预测。
真正关键的是:
一个干预是否可能把异常生物状态推向期望方向?
如果有了状态—干预—转移数据,药物发现就能更接近真实生命系统响应,而不是只在静态靶点层面优化。
5. 改变投资和产业判断逻辑过去投资人看医学 AI,常常会问:
模型有多强?
数据有多少?
是否有产品?
是否有医生使用?
是否能商业化?
未来可能还要多问一个问题:
这家公司是否在积累可复用的状态转移数据?
如果没有状态转移数据,很多医学 AI 产品可能只是工具;如果有持续积累的状态转移数据飞轮,它就可能成为平台。
十、它不是一个普通数据集医学世界模型的 ImageNet,和传统 AI 数据集有很大不同。
第一,它是纵向的,不是横截面的普通数据集往往记录某一时刻的样本和标签。
医学世界模型数据集必须记录时间。
没有时间,就没有转移;没有转移,就没有世界模型。
第二,它是干预相关的,不是纯观察的观察数据很重要,但世界模型需要 action。
如果只有状态,没有干预,模型只能学习相关性;如果有状态、干预和后续变化,模型才可能学习响应。
第三,它是多层级的,不是单一模态的生命状态不能只靠一个指标表示。
它需要连接:
分子;
细胞;
通路;
器官;
表型;
行为;
环境;
临床背景。
这决定了医学世界模型数据集天然是多模态、多尺度、多时间点的。
第四,它必须可审计,不是黑箱标签医学不能只给一个“有效 / 无效”的标签。
每个状态转移都应该尽可能连接机制证据:
靶点;
通路;
生物标志物;
临床指标;
安全信号;
不确定性。
ImageNet 可以作为静态 benchmark 存在很长时间。
但医学世界模型的数据基础设施,必须不断吸收新数据、新干预、新复测、新验证和新失败案例。
它更像一个生命状态转移数据飞轮,而不是一次性数据集。
十一、最大的挑战是什么?这件事意义很大,但也非常难。
挑战一:状态表示极其复杂一个人的生命状态,不可能被一个诊断标签概括。
如何把多组学、体检、生活方式、症状、器官功能、环境暴露和病史组织成可计算的 state representation,是第一大挑战。
挑战二:干预动作很难标准化医学中的 action 比机器人中的 action 复杂得多。
药物有剂量、频率、疗程、组合、依从性;运动有类型、强度、频率和持续时间;饮食有结构、热量、时间窗口和营养组成;补充剂和生活方式干预更加复杂。
如果 action 不能标准化,模型就很难学习。
挑战三:复测数据稀缺很多医学数据只有一次检测。
但世界模型需要前后变化。
这意味着必须重新设计数据采集流程,让检测、干预、复测和反馈成为闭环。
挑战四:因果混杂严重真实世界中,一个人往往同时改变饮食、运动、睡眠、药物和补充剂。
状态变化到底来自哪个因素?不同干预之间是否协同或拮抗?如何处理混杂因素?
这需要非常谨慎的研究设计和统计方法。
挑战五:安全和伦理要求极高医学世界模型不能像游戏模型一样自由试错。
任何涉及干预的模型,都必须明确边界:
什么只是研究假设;
什么可以作为健康管理提示;
什么需要医生判断;
什么不能自动推荐;
什么必须经过监管和临床验证。
如果这套基础设施完全封闭,行业难以形成共同标准;如果完全开放,企业又很难形成持续投入的商业回报。
如何在开放 benchmark、隐私保护、商业激励和科研协作之间取得平衡,是非常现实的问题。
十二、大致应该怎么做?本文不展开具体技术路线。后续可以专门讨论“如何构建医学世界模型的 ImageNet”。
这里只谈方向。
我认为,大致需要五步。
第一步:定义最小可行任务不要一开始试图模拟整个人体。
应该先从一个可测、可复测、可干预、可验证的场景开始。例如:
细胞扰动响应;
长寿医学状态转移;
炎症状态干预;
代谢状态改善;
DNA 甲基化年龄变化;
慢病风险状态转移。
先把一个任务做清楚,比一开始追求大而全更重要。
第二步:建立状态标准明确 baseline state 应该记录什么。
例如:
分子指标;
通路指标;
临床指标;
表型指标;
行为指标;
环境背景;
时间信息。
明确 action 应该如何描述。
例如:
干预类型;
剂量;
频率;
持续时间;
组合关系;
依从性;
机制标注。
必须系统记录 follow-up state。
没有复测,就没有 transition;没有 transition,就没有医学世界模型。
第五步:建立评估任务让不同模型回答同一类问题:
能否估计状态变化方向?
能否识别关键机制?
能否提出验证指标?
能否识别风险和不确定性?
能否在新个体、新干预、新时间点上泛化?
这就是医学世界模型 benchmark 的雏形。
十三、谁定义 state、action、transition,谁就可能定义未来医学 AI 的下一个十年,不缺大模型。
更准确地说,医学 AI 当然仍然需要更强的模型,但更大的模型本身并不能自动解决医学世界模型所需的状态转移学习问题。
真正稀缺的,是能让模型学习生命状态转移的数据基础设施。
未来医学 AI 的平台级公司,不一定是拥有最大语言模型的公司,而可能是最早建立以下能力的公司:
持续测量生命状态;
标准化记录干预动作;
系统复测状态变化;
构建机制证据链;
形成状态转移数据飞轮。
这就是医学世界模型时代的基础设施竞争。
谁能定义 state,谁就定义医学 AI 看到什么。
谁能定义 action,谁就定义医学 AI 如何理解干预。
谁能定义 transition,谁就定义医学 AI 如何学习生命变化。
谁能定义 benchmark,谁就定义整个领域如何进步。
结语:医学世界模型的 ImageNet,要让 AI 学会理解生命如何响应干预ImageNet 让机器视觉第一次拥有了共同坐标系。
它让 AI 学会了更系统地看见世界。
而医学世界模型需要的 ImageNet,不是让 AI 识别更多疾病标签,而是让 AI 学会理解生命如何响应干预。
这件事一旦做成,医学 AI 就不再只是会回答问题,不再只是会总结文献,不再只是会预测风险。
它将开始真正学习:
状态如何形成,干预如何作用,系统如何转移,证据如何验证。
医学 AI 的下一个十年,不缺大模型。
真正缺的,是一个关于生命状态转移的共同基础设施。
谁能把这件事做成,谁就可能定义下一代 AI 医学的底层坐标系。
参考文献Deng J, Dong W, Socher R, Li LJ, Li K, Fei-Fei L. ImageNet: A Large-Scale Hierarchical Image Database. CVPR. 2009.
Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. 2015.
ImageNet official website.
Ha D, Schmidhuber J. World Models. 2018.
Arc Institute. Arc Institute’s first virtual cell model: State.
Theodoris C, et al. Predicting cellular responses to perturbation across diverse contexts with State. bioRxiv. 2025.
Yang Y, Wang ZY, Liu Q, et al. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv.
IEEE Transactions on Biomedical Engineering. Digital Twins / AI World Models.
https://www.embs.org/tbme/research-highlights/digital-twins-ai-world-models/
Acosta JN, Falcone GJ, Rajpurkar P, Topol EJ. Multimodal biomedical AI. Nature Medicine. 2022.
Xia Y, Wang K, Zhang H. Parallel Optimization of 3D Cardiac Electrophysiological Model Using GPU.
Aslanidi OV, Colman MA, Stott J, et al. 3D virtual human atria: A computational platform for studying clinical atrial fibrillation. Progress in Biophysics and Molecular Biology. 2011.
Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org. 2026.
SEWO — Steerable Medicine World Model / 可驾驭医学世界模型.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 03:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社