博文

AI Open | 南华大学刘永彬团队: 融合跨视图多尺度感知与RAG增强专家融合的医学预测

已有 2014 次阅读 2026-4-17 10:55 |系统分类:科研笔记

近日，南华大学计算机学院（University of South China）Cheng Wang、Yongbin Liu（通讯作者）、Ying Yu、Chunping Ouyang和Yaping Wan等研究者，在AI Open上发表了题为“Integrating cross-view multi-scale perception and RAG-enabled expert fusion for medical prediction”的研究论文。该工作提出了一种新型多模态预测模型，主要包含三个核心组件：（1）跨视图多尺度感知模块（CVMP），通过交叉注意力和多尺度卷积融合不同时序嵌入以捕捉短期到长期的时序模式；（2）基于检索增强生成（RAG）的专家融合模块（ROE），利用外部医学知识图谱和大语言模型丰富ICD编码的语义表示，并通过混合专家（MoE）门控机制与临床笔记动态融合；（3）交叉模态注意力融合架构，通过自注意力与交叉注意力交替的多层架构实现时间序列与文本的深度融合。在MIMIC-III数据集上的实验表明，该方法在两项关键ICU临床预测任务上均超越了现有基线，在MISTS、临床笔记和多模态融合任务上分别取得了3.3%、6.0%和3.4%的最大相对F1提升。

研究背景

电子健康记录（EHR）在ICU环境中持续记录患者的健康状态，包含不规则采样的多变量时间序列数据和非结构化的临床文本。现有方法在处理模态不规则性时，往往忽略了复杂的序列内和序列间交互，以及短期与长期特征之间的依赖关系。此外，临床笔记通常语义稀疏、结构化程度低且含有噪声，难以有效解析。如何设计一种多模态预测模型，能够同时捕捉不规则时间序列的多尺度时序模式、充分利用临床文本的语义信息并实现高效的跨模态融合，是提升ICU临床预测准确性的关键问题。

研究亮点

1. 提出跨视图多尺度感知模块（CVMP），通过交叉注意力融合插值嵌入与mTAND不规则时序嵌入，并采用三分支多尺度卷积（核大小9/15/21）同时捕捉短期波动、中期趋势和长期依赖，配合可学习残差连接和通道混合FFN，大幅降低计算复杂度。2. 设计基于RAG的专家融合模块（ROE），利用PubMed、DrugBank等多源医学知识库和双编码器Dragon检索相关文献，再用大语言模型（DeepSeek）生成单句摘要，最后通过MoE门控机制动态融合疾病、操作、药物三类ICD表示，实现上下文感知的自适应融合。3. 采用交叉模态注意力融合架构，通过J层自注意力（MH）与交叉注意力（CMH）交替的设计，先捕捉各模态内部依赖，再实现模态间双向知识传递，克服了传统早期融合和晚期融合的局限性，实现深层模态共同增强。4. 在MIMIC-III数据集的两项关键任务上进行全面实验验证，包括48小时院内死亡率预测（48-IHM）和24小时表型分类（24-PHE），在MISTS、临床笔记和多模态融合三个设定下均超越现有最优基线，展示了方法的鲁棒性和实用性。

图文导读

图1展示了电子健康记录（EHR）的数据结构概览。EHR数据包含结构化条目（如生命体征监测、用药记录等）和非结构化文本（如临床笔记），这些数据随时间演变且采样不规则。图中展示了一位患者在ICU住院期间从早上6点到晚上9点的多种生理指标监测数据及临床事件，直观地说明了EHR数据的多源性、时序性和不规则性特征。

图1：电子健康记录（EHR）的数据结构概览。展示了ICU患者的多种生理监测数据和临床事件的时间序列。

图2是本文最核心的架构图，展示了完整的模型框架。模型包含三个主要组件：（1）左侧的跨视图多尺度感知模块（图a），通过插值和mTAND两种时序编码生成两种视图的嵌入，经过交叉注意力融合后进入小/中/大三种核的多尺度卷积，配合可学习残差网络（Learnable ResNet）提取不同时间尺度的特征；（2）右侧的RAG增强专家融合模块（图b），从外部知识库（PubMed、Wikipedia、DrugBank）检索相关文献，经大语言模型摘要后由双编码器编码，通过门控MoE机制融合疾病、操作、药物三类专家的表示；（3）中间的多模态融合模块，通过自注意力（MH）与交叉模态注意力（CMH）交替的J层架构，实现时间序列与临床文本的深度跨模态融合，最终经分类器输出预测结果。

图2：模型整体架构。左侧(a)为跨视图多尺度感知模块，右侧(b)为RAG增强专家融合模块，中间为多模态融合架构。

表1展示了MIMIC-III数据集的样本分布。研究使用两项任务：48小时院内死亡率预测（48-IHM）和24小时表型分类（24-PHE）。数据按70%/15%/15%划分为训练/验证/测试集，48-IHM任务包含约14,242个样本，24-PHE任务包含约20,506个样本。为确保数据完整性，缺少临床笔记或ICD编码的患者被排除。

表1：MIMIC-III数据集在两项任务上的样本分布。

表2是本文的核心结果表之一，将CVMP与五种最新的MISTS基线方法进行对比。在48-IHM任务上，CVMP的F1达到45.77，AUPR达到50.12，相比最强基线分别提升了1.2%和2.4%；在更具挑战性的24-PHE任务上，F1达到25.55，AUROC达到74.93，同样超越所有基线。值得注意的是，CVMP的时间复杂度为O(Ld²)，显著低于SeFT和mTAND等Transformer基线的O(N²d)复杂度。

表2：CVMP与五种MISTS基线在两项任务上的对比，含时间和空间复杂度。

表3展示了临床笔记模态的实验结果。本文的ROE模块与五种基线方法比较，包括HierTrans、T-LSTM、FT-LSTM、mTAND等。在48-IHM任务上，ROE的F1达到54.65，AUPR达到55.72，相比上一个最优基线提升了4.9%；在24-PHE任务上，F1提升达6.0%。这得益于RAG丰富了ICD编码的语义表示，以及MoE门控机制的自适应融合。

表3：临床笔记模态的比较结果。ROE在两项任务上均显著超越各基线。表4展示了不同多模态融合方法的对比结果。与MedFuse、Interleaved Attention、DrFuse和CTPD等基线相比，本文方法在48-IHM任务上的F1达到57.49、AUPR达到60.84，在24-PHE任务上的F1达到56.11、AUROC达到86.71，均大幅超越所有基线。与依赖静态融合的MedFuse和DrFuse不同，本文的交叉注意力机制在每一层交替自注意力和交叉注意力，实现了两个模态的逐层相互增强。

表4：多模态融合方法在48h IHM和24h PHE任务上的对比。表5展示了CVMP模块内部不同子模块的消融实验。通过分别替换mTAND、UTDE和完整CVMP三种配置，结果表明完整的CVMP模块在两项任务上均优于单独使用任何子模块，验证了交叉注意力融合和多尺度卷积的协同作用。

表5：CVMP子模块消融实验。完整CVMP模块均优于单独使用各子模块。表6对比了不同多模态融合策略在临床笔记处理中的效果。实验对比了仅使用mTAND、分别添加单类ICD（dis+note、proc+note、med+note）、简单拼接（concat）以及ROE的效果。结果表明，ROE在所有指标上均取得最优表现，证明了MoE门控机制相比简单拼接和单源融合的优势。

表6：不同多模态融合策略在临床笔记上的对比。ROE模块全面优于其他策略。表7展示了多模态融合模型的消融实验。通过分别移除CVMP和ROE模块，结果表明两个模块对最终融合性能都有重要贡献，完整模型（MULT+CVMP+ROE）在所有指标上均取得最优结果。忽略多尺度时序信息或临床笔记的上下文信息，都会导致融合结果和模型性能下降。

表7：多模态融合模型消融实验。MULT+CVMP+ROE全模型在所有指标上最优。图3展示了不同卷积核大小组合对融合模型性能的影响。实验对比了四种核大小组合：(3,9,15)、(6,12,18)、(9,15,21)和(12,18,24)。结果表明，(9,15,21)组合在两项任务上均取得最高性能，其中小核（9）捕捉局部高频临床事件，中核（15）建模日周期内的中期趋势，大核（21）识别跨天的长期依赖，三者互补提供了全面的多尺度时序感知。

图3：不同卷积核大小组合对模型性能的影响。(9,15,21)组合在两项任务上均取得最优表现。

原文信息

Integrating cross-view multi-scale perception and RAG-enabled expert fusion for medical predictionCheng Wang, Yongbin Liu, Ying Yu, Chunping Ouyang, Yaping WanAI Open, Volume 7, Pages 62–70, 2026DOI: https://doi.org/10.1016/j.aiopen.2026.02.004

期刊介绍

AI Open是一本致力于分享人工智能及其应用理论的英文国际期刊，期刊侧重人工智能领域可操作知识层面及具有前瞻性观点的研究。期刊主编由清华大学计算机与科学技术系唐杰教授担任。

AI Open欢迎人工智能及其应用相关领域的文章。

期刊收录的所有文章都经过严格的同行评审，并发表在月活用户超过2000万的ScienceDirect平台，供领域内的学者、及全球读者免费阅读、下载及引用。

目前，期刊已被ESCI、Ei Compendex、Scopus、DOAJ、dblp computer science bibliography、EBSCOhost等权威数据库收录。在COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS学科175种国际期刊中位列第3位（Q1区），在COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE学科204种国际期刊中位列第5位（Q1区）。

主编