博文

[转载]【好文荐读】双模态融合+多尺度特征：AI眼科诊断新突破，让眼底病变"无处遁形"

已有 1552 次阅读 2026-3-26 10:44 |系统分类:论文交流|文章来源:转载

导语

视网膜疾病是全球范围内导致视力损害和失明的主要原因之一，早期精准诊断对保护患者视力至关重要。然而，传统的单一影像诊断模式如同"盲人摸象"——眼底彩照（FCP）能看到视网膜表面血管和出血，却看不清深层结构；光学相干断层扫描（OCT）能显示精细的视网膜分层，却缺乏全局视野。

如何让两种影像"强强联合"，实现1+1>2的诊断效果？西安电子科技大学机电工程学院/高性能电子装备机电集成制造全国重点实验室吕锐婵教授团队在《Journal of Innovative Optical Health Sciences》发表最新研究，提出了一种多尺度特征融合网络（MSFF-Net），通过模拟眼科医生的临床诊断思维，让AI同时具备"全局观"和"聚焦力"，在多项公开数据集上达到95%以上的诊断准确率！

Han Xu and Ruichan Lv. Multi-modal retinal disease diagnosis based on fundus photography and OCT images.Journal of Innovative Optical Health SciencesVol. 19, No. 02, 2550032 (2026)

https://doi.org/10.1142/S1793545825500324

正文

临床痛点：为什么单一影像不够？

在临床实践中，眼科医生诊断视网膜疾病时通常需要结合两种检查：

眼底彩照（FCP）：提供视网膜的全局视图，可观察血管走行、出血渗出、黄斑区等表面特征，但缺乏深度分辨率，难以发现微小深层病变

OCT影像：提供视网膜的"光学切片"，能清晰显示10层结构、测量厚度、发现微小病变，但视野有限，缺乏整体观

图1：同一病灶在不同模态下的表现。(a)息肉状脉络膜血管病变（PCV）；(b)干性年龄相关性黄斑变性（Dry AMD）。左图为眼底彩照，右图为OCT影像，箭头指示对应病灶区域

如图1所示，同一PCV病灶在眼底彩照中表现为橘红色结节伴出血，而在OCT中则显示为视网膜下高反射性物质伴色素上皮脱离。两种模态互为补充，缺一不可。

MSFF-Net：模拟医生诊断思维的AI架构

研究团队提出的MSFF-Net模型采用双分支架构设计，如同两位专科医生会诊：

第一分支：全局病灶提取（FCP分支）

以EfficientNet-b0为骨干网络
创新设计多尺度空间增强模块（MSSE）：通过多尺度卷积捕获不同大小的病灶特征，从微动脉瘤到大片出血都能精准识别
采用**CLAHE（对比度受限自适应直方图均衡化）**预处理：解决眼底图像光照不均问题，增强局部病灶对比度

第二分支：聚焦病灶特征（OCT分支）

以ResNet18为骨干网络
创新设计双特征聚焦模块（DFF）：结合通道注意力和空间注意力，抑制OCT固有的散斑噪声，聚焦关键病变区域
采用中值滤波预处理：有效消除散斑噪声，保留组织边界信息

跨模态自适应学习（CMAL）

设计三维跨模态学习机制：在高维、通道、宽维三个方向进行特征交互
实现FCP的全局信息与OCT的局部信息的自适应融合
生成互补性强、判别性高的多模态特征表示

图3：MSFF-Net模型整体结构。(a)图像预处理；(b)FCP全局病灶提取分支（含MSSE模块）；(c)OCT聚焦病灶特征分支（含DFF模块）；(d)跨模态自适应学习（CMAL）与诊断决策

实验验证：三数据集全面领先

研究团队在三个公开数据集上验证了MSFF-Net的性能：

1. MMC-AMD数据集（674对图像，4分类）

正常、干性AMD、息肉状脉络膜血管病变（PCV）、湿性AMD
准确率88.81%，F1分数90.01%
相比次优方法（MSAN），F1提升2.61%，准确率提升2.99%

2. GAMMA数据集（青光眼筛查，3分类）

正常、早期青光眼、晚期青光眼
准确率95.00%，F1分数95.24%
在青光眼早期诊断这一难点上表现卓越

3. APTOS-2021数据集（低质量图像挑战）

图像质量差、类别不平衡的真实临床场景
准确率71.50%，F1分数71.73%
在低质量条件下仍保持最优性能，展现强鲁棒性

图5：多模态方法在MMC-AMD数据集上的ROC曲线。MSFF-Net的AUC值最接近左上角，诊断性能最优

消融实验：验证每个模块的价值

研究团队通过严谨的消融实验证明了各模块的有效性：

预处理策略验证

CLAHE对FCP图像：F1提升1.45%
中值滤波对OCT图像：F1提升0.52%
两者结合：显著提升病灶细节识别能力

融合策略对比

简单相加（Add）：F1=80.37%
逐元素相乘（Mul）：F1=86.44%
通道拼接（Cat）：F1=88.17%
CMAL自适应融合：F1=90.01%（最优）

核心模块贡献

单独使用MSSE模块：F1提升0.30%
单独使用DFF模块：F1提升0.63%
单独使用CMAL模块：F1提升1.88%
三者联合使用：相比基线F1提升5.59%（GAMMA数据集提升9.73%）

可视化分析：AI的"注意力"在哪里？

通过类激活映射（CAM）可视化，研究团队发现MSFF-Net的注意力机制与眼科医生的诊断逻辑高度一致：

FCP分支：聚焦于黄斑区出血、渗出、玻璃膜疣等表面病变

OCT分支：聚焦于视网膜下积液、色素上皮脱离、脉络膜新生血管等深层结构

融合决策：综合两种模态的关键区域，避免单一模态的误诊

图12：MSFF-Net的类激活映射可视化。每列展示一种疾病的FCP（上行）和OCT（下行）图像及其热力图，红色区域表示对分类贡献最大的区域，可见模型准确聚焦于病灶部位

主要创新点

1.双分支差异化架构：首次针对FCP和OCT的成像特性设计专用处理分支——FCP分支强调多尺度全局特征，OCT分支强调去噪与聚焦，实现"各取所长"

2.三大核心模块：

MSSE模块：多尺度空间增强，捕获从微动脉瘤到大片出血的全尺度病灶
DFF模块：双路径注意力机制，同时抑制OCT散斑噪声并增强病灶响应
CMAL模块：三维跨模态自适应学习，实现FCP与OCT特征的深度交互融合

3.临床导向的预处理：CLAHE+中值滤波的组合策略，针对性解决两种模态的图像质量问题

4.卓越的性能表现：在三个公开数据集上均达到SOTA（当前最优）水平，尤其在低质量数据上展现强鲁棒性

应用前景

MSFF-Net技术具有广阔的临床转化前景：

辅助诊断系统：集成至眼科影像工作站，为基层医院提供"专家级"诊断建议，缓解医疗资源分布不均
筛查与早诊：用于糖尿病视网膜病变、青光眼等疾病的社区筛查，实现早发现、早治疗
多模态扩展框架：架构可扩展至FFA（荧光素血管造影）、超广角眼底成像等更多模态，构建更全面的诊断体系
模态缺失鲁棒性：未来结合生成对抗网络（GAN），在单一模态缺失时合成互补信息，提升系统可靠性

结语

在人工智能与医学影像深度融合的今天，多模态学习已成为提升诊断准确性的关键路径。吕锐婵教授团队提出的MSFF-Net不仅为视网膜疾病诊断提供了新工具，更展示了一种"模拟临床思维"的AI设计范式——理解不同影像的物理本质，针对性设计特征提取策略，通过自适应融合实现信息互补。

这项研究让我们看到，当光子学成像技术与深度学习智慧相遇，眼科疾病的精准诊疗正迎来新的曙光。期待MSFF-Net早日走向临床，为守护全球数亿患者的视力健康贡献力量。

通讯作者简介

吕锐婵，西安电子科技大学机电工程学院教授, 研究方向为光电集成制造与智能检测。

更多详情见https://faculty.xidian.edu.cn/LRC4/zh_CN/index.htm

转载本文请联系原作者获取授权，同时请注明本文来自王珍科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3534623-1527436.html

上一篇：[转载]【好文荐读】OCT+机器学习：术中实时"光学活检"助力胃肠道肿瘤精准切除
下一篇：[转载]喜报 | 中南大学陈昊彬教授团队综述入选Web of Science高被引论文与热点论文！

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 115.156.142.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

王珍

扫一扫，分享此博文

JIOHS的个人博客分享 http://blog.sciencenet.cn/u/JIOHS

博文

[转载]【好文荐读】双模态融合+多尺度特征：AI眼科诊断新突破，让眼底病变"无处遁形"

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

王珍

全部作者的其他最新博文

全部精选博文导读

JIOHS的个人博客分享 http://blog.sciencenet.cn/u/JIOHS

博文

[转载]【好文荐读】双模态融合+多尺度特征：AI眼科诊断新突破，让眼底病变"无处遁形"

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王珍

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)