精选
|
AI医生表现优异,下一个是什么AI职业
大语言模型(LLM)是一类人工智能(AI)算法,通过在海量数据上训练学习规律,从而生成类人化的回应。推理模型是具备分步思考解题能力的升级版大语言模型,能够在回应前逐步推演问题,接近人类的结构化思维。这类AI系统在医学知识考核中表现优异,但它们能否在真实诊断任务中达到医师级别的临床推理能力,在很大程度上仍不明确。在本期第524页,Brodeur 等人(1)证实:通过在临床模拟病例与真实急诊病例中与人类医师对比,AI如今已能在文本场景下达到甚至超越医师级别的临床诊断推理水平。该发现表明,我们亟需理解如何将这些工具安全融入临床工作流程,并准备好在临床实践中开展前瞻性评估。

人工智能有望广泛支持医疗应用,从临床决策、医学教育到面向患者的健康信息服务。大语言模型已通过医师资格考试,并在结构化临床评估中表现出色,让人期待它们能够缓解全球医疗人力短缺。然而,通过考试不等于成为医生,在真实临床任务中展现医师级表现是一项难度更高的核心挑战(2)。
Brodeur 团队评估了 OpenAI 首个推理模型 o1-preview(2024年9月发布),通过五项实验在临床模拟病例中对比其诊断表现与医师、传统模型的基准水平。第六项实验则在76例真实急诊病例的三个诊断节点上,将 o1 与传统模型及医师进行比较。
各项实验显示,o1 模型显著优于上一代非推理型大语言模型(如GPT-4),且在多数场景中优于医师本身。例如,在已发表的临床病理讨论病例中,GPT-4 的精准或接近精准诊断准确率为72.9%,而 o1-preview 达到88.6%。此外,在真实急诊病例中,o1 在初始分诊阶段的精准或接近精准诊断准确率为67.1%,超过两名高年资主治医师(55.3% 和 50.0%),盲法评审者无法区分AI输出与人类判断。这一进展树立了全新的评估标准:在真实临床任务中,直接以医师表现为基准测试AI,最好是与医师协同测试。
尽管 o1 模型仅支持文本输入,但在更新的模型中,其推理能力、思考耗时及多模态处理能力已大幅提升,能够承担更复杂的任务。值得注意的是,GPT-5.3、Gemini 3.1 Pro 等推理模型现已可同时处理文本、图像、音频与视频。Brodeur 等人的研究为基于文本任务的真实评估奠定基础,但临床实践天然包含视、听线索,如体格检查发现。多模态AI有望实现更贴近真实临床诊断的评估(2)。因此,未来研究应在 Brodeur 的场景中测试最新模型,利用包含视听数据的模拟病例检验多模态能力,并逐步推进前瞻性临床评估。
尽管 Brodeur 等人的研究表明,AI在特定场景下的诊断能力已达到(甚至超过)医师水平,但当前医疗AI的主流定位并非替代医师,而是协作辅助——由临床医师提供监督、情境判断与责任把控。这种协作模式本身仍需验证。在既往使用临床模拟病例评估诊断与治疗推理的研究中,使用GPT-4辅助的医师与单独运行的GPT-4模型表现无显著差异,但二者均优于仅使用传统资源的医师(3)。更广泛地说,有观点认为,在医疗领域某些定义明确的任务中,AI独立运行可能效率更高(4)。事实上,确定最佳落地方式可能需要一组对照评估:单独AI、单独医师、医师+AI。
如今临床医师已在实践中使用AI工具,部分甚至缺乏机构监管(5),因此这三组对照产生的证据对于判断“AI整合何时改善医疗、何时不能”至关重要。
Brodeur 团队聚焦诊断推理任务,但这只是医疗AI的应用领域之一。有研究者提出一套评估框架【医学大语言模型综合评估(Med-HELM)】,包含五大领域:临床决策支持、病历生成、医患沟通、医学科研辅助与行政工作流(6)。在这些领域,AI模型正从静态问答工具升级为智能代理:例如分析患者病历、通过环境监听监护诊疗过程、基于患者数据的预测模型进行实时交互。无论何种应用,临床落地的考核标准不能是“模拟任务得分”,而必须是真实场景中的疗效提升,最好通过随机对照试验证实。
还有学者提出仿照医师培训建立AI临床认证路径(7):让AI从医学知识助手逐步进阶到专科任务执行、监督下临床实践,最终扩展到更广泛的自主应用范围。Brodeur 等人的研究正是这条路径上的重要一步,证明推理模型正从知识平台向专科任务执行升级。下一步应将评估拓展到监督临床环境中的多模态AI。
尽管评估方法不断进步,但AI系统的落地速度已超过评估进度。在经过验证的任务上表现准确,不代表上线后只会完成该任务。例如,2026年1月,OpenAI 推出 ChatGPT Health,一款面向消费者的AI健康工具,宣称可作为个性化健康信息来源,每天处理超4000万条健康相关提问。该工具并非为临床分诊设计,却并未拒绝分诊任务;首项独立评估发现,它对超过一半的急诊病例分诊不足(漏判危险)(8)。该评估作者合理地指出:消费者健康AI必须接受独立评估,且 ChatGPT Health 的定位缺乏清晰界定。然而,独立评估必须足够严谨,才能得出可落地的结论。
如果没有像 Brodeur 团队那样设置医师对照组,就无法判断:在相同信息下,临床医师是否会表现更好,进而限制医学界给出明确建议。清晰的任务定义 + 透明的人类基准,才能让医学界督促开发者在明确的临床任务上承担责任。
在明确任务上的准确性只是落地就绪度的一个维度。临床AI还必须实现公平、经济、安全的结局,并具备责任追溯、透明度与持续监测机制。2024年《美国医学会杂志》(JAMA)医疗AI峰会指出:大多数医疗AI项目仍未能证实真实世界有效性(能真正改善结局,而非仅在基准测试中得分高)或公平性,呼吁多方参与、可靠测量工具、能反映多元人群的数据基础设施,以及驱动重点问题评估的政策与透明度激励(9)。
不满足这些建议的风险已有实证:例如某广泛使用的医疗算法出现显著种族偏见,影响医疗支出公平分配(10);公开可及AI工具的健康保障措施不完善(11,12);存在偏差的AI反而降低医师诊断准确率(13)。若不能扎实证实有效性、公平性与安全性,许多AI系统仍不足以用于临床。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-2 09:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社