|
经过训练进行医学访谈的人工智能 (AI) 系统在与模拟患者交谈并根据患者的病史列出可能的诊断方面的表现与人类医生相当,甚至超过了人类医生的表现1.
Google AI has better bedside manner than human doctors — and makes better diagnoses (nature.com)
该聊天机器人基于谷歌开发的大型语言模型(LLM),在诊断呼吸和心血管疾病等方面比董事会认证的初级保健医生更准确。与人类医生相比,它在医学访谈中设法获得了相似数量的信息,并且在同理心方面排名更高。
“据我们所知,这是第一次为诊断对话和记录临床病史而设计对话式人工智能系统,”伦敦谷歌健康临床研究科学家、该研究的合著者Alan Karthikesalingam说1,该论文于 1 月 11 日发表在 arXiv 预印本存储库中。它尚未经过同行评审。
该聊天机器人被称为Articulate Medical Intelligence Explorer(AMIE),目前仍处于纯实验阶段。它还没有在有真正健康问题的人身上进行测试,只是在训练有素的演员身上进行过测试,以描绘患有疾病的人。“我们希望以谨慎和谦逊的态度解释结果,”Karthikesalingam说。
尽管聊天机器人远未用于临床护理,但作者认为,它最终可能会在医疗保健民主化方面发挥作用。这个工具可能会有所帮助,但它不应该取代与医生的互动,马萨诸塞州波士顿哈佛医学院的内科医生亚当罗德曼说。“医学不仅仅是收集信息,而是与人际关系有关,”他说。
学习一项微妙的任务
很少有利用LLM进行医学研究的努力探索了这些系统是否可以模拟医生获取一个人的病史并用它来做出诊断的能力。罗德曼说,医学生花了很多时间进行培训。“这是向医生灌输的最重要和最困难的技能之一。”
开发人员面临的一个挑战是缺乏可用作训练数据的真实世界的医学对话,加利福尼亚州山景城 Google Health 的 AI 研究科学家、该研究的合著者 Vivek Natarajan 说。为了应对这一挑战,研究人员设计了一种让聊天机器人训练自己的“对话”的方法。
研究人员使用现有的真实世界数据集(例如电子健康记录和转录的医疗对话)对基础LLM进行了第一轮微调。为了进一步训练该模型,研究人员促使LLM扮演患有特定疾病的人的角色,以及一个有同理心的临床医生的角色,旨在了解该人的病史并设计潜在的诊断。
该团队还要求该模型再扮演一个角色:一个批评者,评估医生与被治疗者的互动,并就如何改善这种互动提供反馈。这种批评被用来进一步训练法学硕士并产生改进的对话。
为了测试该系统,研究人员招募了20名接受过冒充患者培训的人,并让他们与AMIE和20名获得委员会认证的临床医生进行基于文本的在线咨询。他们没有被告知他们是在与人类还是机器人聊天。
演员们模拟了149个临床场景,然后被要求评估他们的经历。专家库还对AMIE和医生的表现进行了评分。
AMIE在测试中名列前茅
人工智能系统在所有六个医学专业中都匹配或超过了医生的诊断准确性。该机器人在26项对话质量标准中的24项中表现优于医生,包括礼貌、解释病情和治疗、诚实以及表达关怀和承诺。
“这绝不意味着语言模型在获取临床病史方面比医生更好,”Karthikesalingam说。他指出,研究中的初级保健医生可能不习惯通过基于文本的聊天与患者互动,这可能会影响他们的表现。
相比之下,法学硕士有一个不公平的优势,即能够快速写出冗长而结构精美的答案,Karthikesalingam说,这使得它能够始终如一地考虑而不会感到疲倦。
通缉:公正的聊天机器人
他说,这项研究的一个重要下一步是进行更详细的研究,以评估潜在的偏见,并确保该系统在不同人群中是公平的。谷歌团队也开始研究与有真正医疗问题的人一起测试系统的道德要求。
新加坡杜克-新加坡国立大学医学院(Duke-NUS Medical School)的临床医生人工智能科学家丹尼尔·丁(Daniel Ting)也认为,探测系统中的偏见对于确保算法不会惩罚在训练数据集中没有很好地代表的种族群体至关重要。
Ting说,聊天机器人用户的隐私也是一个需要考虑的重要方面。“对于目前许多商业大型语言模型平台,我们仍然不确定数据存储在哪里以及如何分析,”他说。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社