|
近日,由加拿大阿尔伯塔大学,复旦大学陈颉教授领衔的研究团队在国际期刊《表型组学》(Phenomics)上发表了一篇题为“Multimodal Approach for Detection and Assessment of Depression Using Text, Audio and Video”的研究论文。该研究提出了一种创新的多模态融合模型,用于抑郁症的自动检测和评估,取得了显著的性能提升,为心理健康领域的研究带来了新的突破。
扫二维码|查看原文
论文DOI链接:
https://link.springer.com/article/10.1007/s43657-023-00152-8
论文PDF链接:
https://link.springer.com/content/pdf/10.1007/s43657-023-00152-8.pdf
引用格式:
Zhang, W., Mao, K. & Chen, J. A Multimodal Approach for Detection and Assessment of Depression Using Text, Audio and Video. Phenomics (2024). https://doi.org/10.1007/s43657-023-00152-8
研究背景
抑郁症是全球最常见的心理障碍之一,每年的发病率持续上升。据世界卫生组织统计,全球约有2.64亿人受到抑郁症的困扰,抑郁症严重影响了患者的生活质量和工作效率。传统的抑郁症诊断方法主要依赖于临床医生的专业判断,容易受到个体偏见和主观因素的影响,进而导致诊断结果的准确性和一致性不高。因此,设计一种有效且稳健的自动抑郁症检测方法,成为当前心理健康领域亟待解决的重要难题。陈颉教授团队的研究正是针对这一难题,开发了一种基于多模态数据的创新方法,希望能为抑郁症的早期检测和干预提供科学支持。
研究方法
在该研究中,陈颉教授团队提出了一种基于文本、音频和视频的多模态融合模型,用于抑郁症的检测和评估。具体来说,在文本模态中,研究团队使用了预训练的句子嵌入(sentence embedding)技术提取文本的语义表示,并结合双向长短期记忆网络(BiLSTM)进行抑郁症预测。这种方法不仅能够捕捉文本中的语义信息,还能处理长句子特征,增强了模型的预测能力。
在音频模态中,研究团队采用了主成分分析(PCA)技术,对输入的音频特征进行降维处理,从而降低模型的计算复杂度。随后,使用支持向量机(SVM)进行抑郁症的预测,充分利用音频信号中的情感特征,提升了检测的准确性。
在视频模态中,团队通过极端梯度提升(XGBoost)进行特征选择和抑郁症检测。XGBoost作为一种高效的梯度提升算法,在处理大规模数据和高维特征时表现出色,有效提高了模型的检测性能。最终,团队将文本、音频和视频模态的预测结果进行集成,通过投票算法得出最终的抑郁症预测结果。
基于多模态输入特征的网络框图
研究结果
在DAIC-WOZ数据集上的实验结果表明,陈颉教授团队提出的多模态融合模型在抑郁症检测和评估任务中表现出色。具体来说,该模型在抑郁症检测中的加权F1分数达到0.85,均方根误差(RMSE)为5.57,平均绝对误差(MAE)为4.48。这些指标均显著优于现有的其他最新方法,展示了多模态融合模型在抑郁症检测中的巨大潜力。
陈颉教授表示,这一研究成果不仅为抑郁症的自动检测提供了一种新思路,还证明了多模态数据在心理健康检测中的重要作用。通过融合文本、音频和视频信息,研究团队成功地捕捉到了更多维度的情感特征,提升了模型的检测准确性和稳定性。
研究意义
陈颉教授团队的这项研究在抑郁症检测和评估领域取得了突破性进展,展示了多模态融合模型在心理健康检测中的巨大潜力。未来,研究团队将继续优化模型,进一步提升其性能和鲁棒性。同时,团队还计划将这一模型应用于其他心理障碍的检测和评估,如焦虑症、双相情感障碍等,为心理健康领域的研究提供更多支持。
此外,研究团队表示,研究团队将积极与临床医生和心理健康专家合作,推动该模型的临床应用。通过将多模态融合模型引入实际诊断流程,能够帮助医生更早期、更准确地发现抑郁症患者,从而提供更及时的干预和治疗,提升患者的生活质量。目前团队正在进行项目的落地转化。
Abstact
Depression is one of the most common mental disorders, and rates of depression in individuals increase each year. Traditional diagnostic methods are primarily based on professional judgment, which is prone to individual bias. Therefore, it is crucial to design an effective and robust diagnostic method for automated depression detection. Current artificial intelligence approaches are limited in their abilities to extract features from long sentences. In addition, current models are not as robust with large input dimensions. To solve these concerns, a multimodal fusion model comprised of text, audio, and video for both depression detection and assessment tasks was developed. In the text modality, pre-trained sentence embedding was utilized to extract semantic representation along with Bidirectional long short-term memory (BiLSTM) to predict depression. This study also used Principal component analysis (PCA) to reduce the dimensionality of the input feature space and Support vector machine (SVM) to predict depression based on audio modality. In the video modality, Extreme gradient boosting (XGBoost) was employed to conduct both feature selection and depression detection. The final predictions were given by outputs of the different modalities with an ensemble voting algorithm. Experiments on the Distress analysis interview corpus wizard-of-Oz (DAIC-WOZ) dataset showed a great improvement of performance, with a weighted F1 score of 0.85, a Root mean square error (RMSE) of 5.57, and a Mean absolute error (MAE) of 4.48. Our proposed model outperforms the baseline in both depression detection and assessment tasks, and was shown to perform better than other existing state-of-the-art depression detection methods.
通讯作者陈颉
陈颉,博士,是加拿大工程院院士, 国际电子电气协会会士(IEEE Fellow), 美国生物医学工程院院士,亚太人工智能协会会士,中国国家级人才,复旦大学浩清教授。2023年9月辞去海外工作,目前担任复旦大学生物医药工程和技术创新学院创始院长和复旦大学工程与技术应用研究院医学工程研究所执行所长,研究领域包括微流控体外诊断芯片,器官神经芯片,生物医用集成电路和穿戴设备,人工智能检测抑郁症。其研究得到中国科技部重大专项,美国国家卫生研究院(NIH), 美国国家自然科学基金会(NSF),加拿大国家自然基金(NSERC),加拿大国家卫生研究院(CIHR)等 50 多项共1亿多美元的经费资助。在国际重要刊物(如PNAS,Nature 子刊), IEEE顶刊(如Proceedings of IEEE, IEEE Journal on Solid-state Circuits, IEEE Trans. on Circuits and Systems, IEEE Trans. on Biomedical Circuits and Systems, IEEE Transactions on Biomedical Engineering) 和国际会议上发表论文 263篇,撰写三部专著作,被引用 8900 多次, h-index 46。持有七项美国专利和二项中国专利,这些技术已授权给五家公司(Hughes Network System LLC, SmileSonica Inc., Tricca Technologies Inc., IntelligentNano Inc. 和 Hidaca Ltd.)。曾在美国常春藤联盟布朗大学任教,获得马里兰大学杰出校友,加拿大最佳教授Killam 奖(此一奖项是颁发给加拿大教授的最高荣誉之一), 加拿大国家创新基金领军人物,加拿大省科技进步发明奖,IEEE讲席教授,现任IEEE 电路和系统协会理事(Board of Governors)。担任多本IEEE期刊Associate Editor(副编),IEEE多项会议的大会主席(General Chair)或技术委员会主席(Technical Program Chair)。协助创立了两家美国贝尔实验室衍生公司,分别于2005年和2015年被QUALCOMM(高通公司)和加州DTS公司收购。另外发明的“低强度脉冲超声刺激牙组织”专利授权给加拿大SmileSonica公司,已完成9万临床治疗,获加拿大药监局批准,在全球2300家诊所销售。
欢迎投稿
我们诚挚地邀请广大科研人员投稿!
Phenomics官网:
https://www.springer.com/journal/43657
投稿链接:
https://www.editorialmanager.com/pnmc/
编辑部邮箱:phenomics@fudan.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 09:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社