精选
|
斯坦福人工智能通过一晚睡眠预测疾病风险
年轻女性在睡眠实验室记录脑电波

科学家开发了一种人工智能,能够利用一晚的睡眠数据预测数十种严重疾病的风险,包括癌症和神经系统疾病。该系统通过识别大脑、心脏和呼吸信号之间的细微不协调,在症状出现前很久就发现预警迹象。一晚的睡眠可能包含预示未来重大疾病的隐藏线索。
糟糕的一晚睡眠通常会导致第二天昏昏沉沉,但它也可能在严重健康问题出现前数年就发出信号。斯坦福医学院的研究人员开发了一种新的人工智能系统,能够分析来自单晚睡眠的详细身体信号,并估算一个人未来患上100多种不同疾病的风险。
这个名为 SleepFM 的系统是在约 65,000 人、近 600,000 小时 的睡眠记录上训练出来的。这些记录来自多导睡眠监测(polysomnography),这是一种深入的睡眠测试,通过传感器整夜追踪脑活动、心律、呼吸模式、眼球运动、腿部运动和其他生理信号。
睡眠研究:一个隐藏的数据宝库
多导睡眠监测被广泛认为是研究睡眠最可靠的方法,通常在专业实验室中进行。除了诊断睡眠障碍外,研究人员意识到这些测试还能在数小时不受干扰的状态下捕捉大量关于身体功能的信息。
“我们在研究睡眠时记录了惊人数量的信号,”医学博士、哲学博士 Emmanual Mignot 说。他是克雷格·雷诺兹睡眠医学教授,也是这项将于今天(1月6日)发表在《自然医学》上的新研究的共同资深作者。“这是一种对受试者进行八小时全面生理监测的方式,数据量非常庞大。”
直到现在,这些信息中的大部分都未被利用。传统睡眠医学只关注有限的信号子集,而大部分数据仍未被探索。人工智能的进步使得首次全面分析这些数据流成为可能。研究人员表示,这是首次以如此大规模将 AI 应用于睡眠数据。
“从人工智能的角度来看,睡眠研究相对较少。有很多 AI 研究关注病理学或心脏病学,但尽管睡眠是生活中如此重要的一部分,对睡眠的 AI 研究却相对较少,”医学数据科学副教授 James Zou 博士说,他也是该研究的共同资深作者。
教 AI 理解睡眠
为了释放这些数据的价值,研究团队构建了一个基础模型(foundation model),这是一种能够从海量数据中学习通用模式,然后适应多种任务的人工智能。像 ChatGPT 这样的大型语言模型使用的是同样的方法,只是它们是在文本上训练,而不是在生物信号上。
SleepFM 是在多个睡眠诊所患者的 585,000 小时 多导睡眠监测数据上训练的。每个记录被分成 5 秒的片段,类似于语言模型中使用“单词”进行训练的方式。
“SleepFM 本质上是在学习睡眠的语言,”Zou 说。
该模型同时分析多个数据流,包括脑电波、心脏信号、肌肉活动、脉搏测量和呼吸气流,并学习这些信号之间的相互作用。为了实现这一点,研究人员设计了一种新的训练方法,称为 留一法对比学习(leave-one-out contrastive learning)。这种方法会暂时移除一种信号,然后让模型使用其余数据来重建它。
“我们在这项工作中取得的技术突破之一,是弄清楚如何协调所有这些不同的数据模态,使它们能够一起学习同一种语言,”Zou 说。
从睡眠模式到疾病风险
训练完成后,研究人员在常见的睡眠相关任务上测试了 SleepFM。该模型能够准确识别睡眠阶段并评估睡眠呼吸暂停的严重程度,性能达到或超过了目前使用的主流系统。
然后,他们进行了一项更具挑战性的测试:仅根据睡眠数据预测未来可能患上哪些疾病。为了做到这一点,他们将睡眠记录与同一患者的长期病史联系起来。研究人员能够访问来自单个诊所的数十年记录,这为研究长期结果提供了难得的机会。
斯坦福睡眠医学中心由已故的 William Dement 医学博士、哲学博士于 1970 年创立,他被广泛认为是睡眠医学之父。用于训练 SleepFM 的最大人群包括约 35,000 名年龄在 2 至 96 岁之间的患者。他们的睡眠研究记录于 1999 年至 2024 年之间,并与电子健康记录相匹配,其中一些患者的随访时间长达 25 年。
(Mignot 说,该诊所的多导睡眠监测记录可以追溯到更早,但都是纸质的。他在 2010 年至 2019 年期间担任睡眠中心主任。)
利用这个组合数据集,SleepFM 分析了 1,000 多个疾病类别,并识别出 130 种可以仅通过睡眠数据以合理准确度预测的疾病。预测能力最强的疾病包括癌症、妊娠并发症、循环系统疾病和精神健康障碍,其性能得分的 C-index 超过 0.8。
衡量预测准确度
C-index(一致性指数)衡量模型对个体风险进行排序的能力。它反映了模型在预测两个人中谁会先经历某个健康事件时的正确率。
“对于所有可能的个体对,模型都会给出谁更可能更早经历某个事件(例如心脏病发作)的排名。C-index 为 0.8 意味着模型的预测在 80% 的情况下与实际发生的情况一致,”Zou 说。
SleepFM 在以下疾病上表现尤其突出:
- 帕金森病(C-index 0.89)
- 痴呆症(0.85)
- 高血压性心脏病(0.84)
- 心脏病发作(0.81)
- 前列腺癌(0.89)
- 乳腺癌(0.87)
- 死亡风险(0.84)
“我们惊喜地发现,对于相当多样的疾病类别,该模型都能做出有价值的预测,”Zou 说。
Zou 补充说,准确度较低的模型(通常 C-index 约为 0.7)已经在临床护理中使用,例如预测患者对某些癌症治疗的反应。
解读预测结果
研究团队目前正专注于提高 SleepFM 的准确度,并理解它是如何得出结论的。未来的版本可能会整合可穿戴设备的数据,以捕捉更多关于日常生活和睡眠习惯的信息。
“它不会用英语向我们解释,”Zou 说。“但我们开发了不同的解释技术,以弄清楚模型在做出特定疾病预测时关注的是什么。”
虽然与心脏相关的信号在预测心血管疾病方面发挥了更大作用,而脑信号在预测精神健康疾病方面更具影响力,但研究人员发现,没有任何单一信号足以单独做出准确预测。最准确的预测来自所有数据源的组合。
“我们从预测疾病中获得的最多信息来自对比不同的信号通道,”Mignot 说。身体成分之间的不同步——例如,大脑看起来处于睡眠状态,但心脏看起来却像清醒的——似乎预示着麻烦。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-9 13:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社