博文

AI医生表现优异，下一个是什么AI职业精选

已有 8580 次阅读 2026-5-2 07:43 |系统分类:海外观察

AI医生表现优异，下一个是什么AI职业

大语言模型（LLM）是一类人工智能（AI）算法，通过在海量数据上训练学习规律，从而生成类人化的回应。推理模型是具备分步思考解题能力的升级版大语言模型，能够在回应前逐步推演问题，接近人类的结构化思维。这类AI系统在医学知识考核中表现优异，但它们能否在真实诊断任务中达到医师级别的临床推理能力，在很大程度上仍不明确。在本期第524页，Brodeur 等人（1）证实：通过在临床模拟病例与真实急诊病例中与人类医师对比，AI如今已能在文本场景下达到甚至超越医师级别的临床诊断推理水平。该发现表明，我们亟需理解如何将这些工具安全融入临床工作流程，并准备好在临床实践中开展前瞻性评估。

图片1.png

人工智能有望广泛支持医疗应用，从临床决策、医学教育到面向患者的健康信息服务。大语言模型已通过医师资格考试，并在结构化临床评估中表现出色，让人期待它们能够缓解全球医疗人力短缺。然而，通过考试不等于成为医生，在真实临床任务中展现医师级表现是一项难度更高的核心挑战（2）。

Brodeur 团队评估了 OpenAI 首个推理模型 o1-preview（2024年9月发布），通过五项实验在临床模拟病例中对比其诊断表现与医师、传统模型的基准水平。第六项实验则在76例真实急诊病例的三个诊断节点上，将 o1 与传统模型及医师进行比较。

各项实验显示，o1 模型显著优于上一代非推理型大语言模型（如GPT-4），且在多数场景中优于医师本身。例如，在已发表的临床病理讨论病例中，GPT-4 的精准或接近精准诊断准确率为72.9%，而 o1-preview 达到88.6%。此外，在真实急诊病例中，o1 在初始分诊阶段的精准或接近精准诊断准确率为67.1%，超过两名高年资主治医师（55.3% 和 50.0%），盲法评审者无法区分AI输出与人类判断。这一进展树立了全新的评估标准：在真实临床任务中，直接以医师表现为基准测试AI，最好是与医师协同测试。

尽管 o1 模型仅支持文本输入，但在更新的模型中，其推理能力、思考耗时及多模态处理能力已大幅提升，能够承担更复杂的任务。值得注意的是，GPT-5.3、Gemini 3.1 Pro 等推理模型现已可同时处理文本、图像、音频与视频。Brodeur 等人的研究为基于文本任务的真实评估奠定基础，但临床实践天然包含视、听线索，如体格检查发现。多模态AI有望实现更贴近真实临床诊断的评估（2）。因此，未来研究应在 Brodeur 的场景中测试最新模型，利用包含视听数据的模拟病例检验多模态能力，并逐步推进前瞻性临床评估。

尽管 Brodeur 等人的研究表明，AI在特定场景下的诊断能力已达到（甚至超过）医师水平，但当前医疗AI的主流定位并非替代医师，而是协作辅助——由临床医师提供监督、情境判断与责任把控。这种协作模式本身仍需验证。在既往使用临床模拟病例评估诊断与治疗推理的研究中，使用GPT-4辅助的医师与单独运行的GPT-4模型表现无显著差异，但二者均优于仅使用传统资源的医师（3）。更广泛地说，有观点认为，在医疗领域某些定义明确的任务中，AI独立运行可能效率更高（4）。事实上，确定最佳落地方式可能需要一组对照评估：单独AI、单独医师、医师+AI。

如今临床医师已在实践中使用AI工具，部分甚至缺乏机构监管（5），因此这三组对照产生的证据对于判断“AI整合何时改善医疗、何时不能”至关重要。

Brodeur 团队聚焦诊断推理任务，但这只是医疗AI的应用领域之一。有研究者提出一套评估框架【医学大语言模型综合评估（Med-HELM）】，包含五大领域：临床决策支持、病历生成、医患沟通、医学科研辅助与行政工作流（6）。在这些领域，AI模型正从静态问答工具升级为智能代理：例如分析患者病历、通过环境监听监护诊疗过程、基于患者数据的预测模型进行实时交互。无论何种应用，临床落地的考核标准不能是“模拟任务得分”，而必须是真实场景中的疗效提升，最好通过随机对照试验证实。

还有学者提出仿照医师培训建立AI临床认证路径（7）：让AI从医学知识助手逐步进阶到专科任务执行、监督下临床实践，最终扩展到更广泛的自主应用范围。Brodeur 等人的研究正是这条路径上的重要一步，证明推理模型正从知识平台向专科任务执行升级。下一步应将评估拓展到监督临床环境中的多模态AI。

尽管评估方法不断进步，但AI系统的落地速度已超过评估进度。在经过验证的任务上表现准确，不代表上线后只会完成该任务。例如，2026年1月，OpenAI 推出 ChatGPT Health，一款面向消费者的AI健康工具，宣称可作为个性化健康信息来源，每天处理超4000万条健康相关提问。该工具并非为临床分诊设计，却并未拒绝分诊任务；首项独立评估发现，它对超过一半的急诊病例分诊不足（漏判危险）（8）。该评估作者合理地指出：消费者健康AI必须接受独立评估，且 ChatGPT Health 的定位缺乏清晰界定。然而，独立评估必须足够严谨，才能得出可落地的结论。

如果没有像 Brodeur 团队那样设置医师对照组，就无法判断：在相同信息下，临床医师是否会表现更好，进而限制医学界给出明确建议。清晰的任务定义 + 透明的人类基准，才能让医学界督促开发者在明确的临床任务上承担责任。

在明确任务上的准确性只是落地就绪度的一个维度。临床AI还必须实现公平、经济、安全的结局，并具备责任追溯、透明度与持续监测机制。2024年《美国医学会杂志》（JAMA）医疗AI峰会指出：大多数医疗AI项目仍未能证实真实世界有效性（能真正改善结局，而非仅在基准测试中得分高）或公平性，呼吁多方参与、可靠测量工具、能反映多元人群的数据基础设施，以及驱动重点问题评估的政策与透明度激励（9）。

不满足这些建议的风险已有实证：例如某广泛使用的医疗算法出现显著种族偏见，影响医疗支出公平分配（10）；公开可及AI工具的健康保障措施不完善（11,12）；存在偏差的AI反而降低医师诊断准确率（13）。若不能扎实证实有效性、公平性与安全性，许多AI系统仍不足以用于临床。

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1533011.html

上一篇：氢气吸入对脑血流的影响大【新进展】
下一篇：吸入氢气通过PTEN诱导激酶1 Parkin通路调控SH-SY5Y细胞和小鼠线粒体自噬减轻脑缺血再灌注损伤

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 117.143.181.*| 热度|

当前推荐数：4 推荐人：郑永军 王涛 许培扬 曾杰

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

孙学军

扫一扫，分享此博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

AI医生表现优异，下一个是什么AI职业精选

当前推荐数：4 推荐人：郑永军 王涛 许培扬 曾杰

该博文允许注册用户评论请点击登录评论 (2 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

AI医生表现优异，下一个是什么AI职业 精选

当前推荐数：4 推荐人： 郑永军 王涛 许培扬 曾杰

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

AI医生表现优异，下一个是什么AI职业精选

当前推荐数：4 推荐人：郑永军王涛许培扬曾杰

该博文允许注册用户评论请点击登录评论 (2 个评论)