||
导语
视网膜疾病是全球范围内导致视力损害和失明的主要原因之一,早期精准诊断对保护患者视力至关重要。然而,传统的单一影像诊断模式如同"盲人摸象"——眼底彩照(FCP)能看到视网膜表面血管和出血,却看不清深层结构;光学相干断层扫描(OCT)能显示精细的视网膜分层,却缺乏全局视野。
如何让两种影像"强强联合",实现1+1>2的诊断效果?西安电子科技大学机电工程学院/高性能电子装备机电集成制造全国重点实验室吕锐婵教授团队在《Journal of Innovative Optical Health Sciences》发表最新研究,提出了一种多尺度特征融合网络(MSFF-Net),通过模拟眼科医生的临床诊断思维,让AI同时具备"全局观"和"聚焦力",在多项公开数据集上达到95%以上的诊断准确率!
Han Xu and Ruichan Lv. Multi-modal retinal disease diagnosis based on fundus photography and OCT images.Journal of Innovative Optical Health SciencesVol. 19, No. 02, 2550032 (2026)
https://doi.org/10.1142/S1793545825500324
正文
临床痛点:为什么单一影像不够?
在临床实践中,眼科医生诊断视网膜疾病时通常需要结合两种检查:
眼底彩照(FCP):提供视网膜的全局视图,可观察血管走行、出血渗出、黄斑区等表面特征,但缺乏深度分辨率,难以发现微小深层病变
OCT影像:提供视网膜的"光学切片",能清晰显示10层结构、测量厚度、发现微小病变,但视野有限,缺乏整体观

图1:同一病灶在不同模态下的表现。(a)息肉状脉络膜血管病变(PCV);(b)干性年龄相关性黄斑变性(Dry AMD)。左图为眼底彩照,右图为OCT影像,箭头指示对应病灶区域
如图1所示,同一PCV病灶在眼底彩照中表现为橘红色结节伴出血,而在OCT中则显示为视网膜下高反射性物质伴色素上皮脱离。两种模态互为补充,缺一不可。
MSFF-Net:模拟医生诊断思维的AI架构
研究团队提出的MSFF-Net模型采用双分支架构设计,如同两位专科医生会诊:
第一分支:全局病灶提取(FCP分支)
以EfficientNet-b0为骨干网络
创新设计多尺度空间增强模块(MSSE):通过多尺度卷积捕获不同大小的病灶特征,从微动脉瘤到大片出血都能精准识别
采用**CLAHE(对比度受限自适应直方图均衡化)**预处理:解决眼底图像光照不均问题,增强局部病灶对比度
第二分支:聚焦病灶特征(OCT分支)
以ResNet18为骨干网络
创新设计双特征聚焦模块(DFF):结合通道注意力和空间注意力,抑制OCT固有的散斑噪声,聚焦关键病变区域
采用中值滤波预处理:有效消除散斑噪声,保留组织边界信息
跨模态自适应学习(CMAL)
设计三维跨模态学习机制:在高维、通道、宽维三个方向进行特征交互
实现FCP的全局信息与OCT的局部信息的自适应融合
生成互补性强、判别性高的多模态特征表示


图3:MSFF-Net模型整体结构。(a)图像预处理;(b)FCP全局病灶提取分支(含MSSE模块);(c)OCT聚焦病灶特征分支(含DFF模块);(d)跨模态自适应学习(CMAL)与诊断决策
实验验证:三数据集全面领先
研究团队在三个公开数据集上验证了MSFF-Net的性能:
1. MMC-AMD数据集(674对图像,4分类)
正常、干性AMD、息肉状脉络膜血管病变(PCV)、湿性AMD
准确率88.81%,F1分数90.01%
相比次优方法(MSAN),F1提升2.61%,准确率提升2.99%
2. GAMMA数据集(青光眼筛查,3分类)
正常、早期青光眼、晚期青光眼
准确率95.00%,F1分数95.24%
在青光眼早期诊断这一难点上表现卓越
3. APTOS-2021数据集(低质量图像挑战)
图像质量差、类别不平衡的真实临床场景
准确率71.50%,F1分数71.73%
在低质量条件下仍保持最优性能,展现强鲁棒性

图5:多模态方法在MMC-AMD数据集上的ROC曲线。MSFF-Net的AUC值最接近左上角,诊断性能最优
消融实验:验证每个模块的价值
研究团队通过严谨的消融实验证明了各模块的有效性:
预处理策略验证
CLAHE对FCP图像:F1提升1.45%
中值滤波对OCT图像:F1提升0.52%
两者结合:显著提升病灶细节识别能力
融合策略对比
简单相加(Add):F1=80.37%
逐元素相乘(Mul):F1=86.44%
通道拼接(Cat):F1=88.17%
CMAL自适应融合:F1=90.01%(最优)
核心模块贡献
单独使用MSSE模块:F1提升0.30%
单独使用DFF模块:F1提升0.63%
单独使用CMAL模块:F1提升1.88%
三者联合使用:相比基线F1提升5.59%(GAMMA数据集提升9.73%)
可视化分析:AI的"注意力"在哪里?
通过类激活映射(CAM)可视化,研究团队发现MSFF-Net的注意力机制与眼科医生的诊断逻辑高度一致:
FCP分支:聚焦于黄斑区出血、渗出、玻璃膜疣等表面病变
OCT分支:聚焦于视网膜下积液、色素上皮脱离、脉络膜新生血管等深层结构
融合决策:综合两种模态的关键区域,避免单一模态的误诊

图12:MSFF-Net的类激活映射可视化。每列展示一种疾病的FCP(上行)和OCT(下行)图像及其热力图,红色区域表示对分类贡献最大的区域,可见模型准确聚焦于病灶部位
主要创新点
1.双分支差异化架构:首次针对FCP和OCT的成像特性设计专用处理分支——FCP分支强调多尺度全局特征,OCT分支强调去噪与聚焦,实现"各取所长"
2.三大核心模块:
MSSE模块:多尺度空间增强,捕获从微动脉瘤到大片出血的全尺度病灶
DFF模块:双路径注意力机制,同时抑制OCT散斑噪声并增强病灶响应
CMAL模块:三维跨模态自适应学习,实现FCP与OCT特征的深度交互融合
3.临床导向的预处理:CLAHE+中值滤波的组合策略,针对性解决两种模态的图像质量问题
4.卓越的性能表现:在三个公开数据集上均达到SOTA(当前最优)水平,尤其在低质量数据上展现强鲁棒性
应用前景
MSFF-Net技术具有广阔的临床转化前景:
辅助诊断系统:集成至眼科影像工作站,为基层医院提供"专家级"诊断建议,缓解医疗资源分布不均
筛查与早诊:用于糖尿病视网膜病变、青光眼等疾病的社区筛查,实现早发现、早治疗
多模态扩展框架:架构可扩展至FFA(荧光素血管造影)、超广角眼底成像等更多模态,构建更全面的诊断体系
模态缺失鲁棒性:未来结合生成对抗网络(GAN),在单一模态缺失时合成互补信息,提升系统可靠性
结语
在人工智能与医学影像深度融合的今天,多模态学习已成为提升诊断准确性的关键路径。吕锐婵教授团队提出的MSFF-Net不仅为视网膜疾病诊断提供了新工具,更展示了一种"模拟临床思维"的AI设计范式——理解不同影像的物理本质,针对性设计特征提取策略,通过自适应融合实现信息互补。
这项研究让我们看到,当光子学成像技术与深度学习智慧相遇,眼科疾病的精准诊疗正迎来新的曙光。期待MSFF-Net早日走向临床,为守护全球数亿患者的视力健康贡献力量。
通讯作者简介
吕锐婵,西安电子科技大学机电工程学院教授, 研究方向为光电集成制造与智能检测。
更多详情见https://faculty.xidian.edu.cn/LRC4/zh_CN/index.htm
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-1 13:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社