JIOHS的个人博客分享 http://blog.sciencenet.cn/u/JIOHS

博文

[转载]【好文荐读】双模态融合+多尺度特征:AI眼科诊断新突破,让眼底病变"无处遁形"

已有 428 次阅读 2026-3-26 10:44 |系统分类:论文交流|文章来源:转载

导语

视网膜疾病是全球范围内导致视力损害和失明的主要原因之一,早期精准诊断对保护患者视力至关重要。然而,传统的单一影像诊断模式如同"盲人摸象"——眼底彩照(FCP)能看到视网膜表面血管和出血,却看不清深层结构;光学相干断层扫描(OCT)能显示精细的视网膜分层,却缺乏全局视野。

如何让两种影像"强强联合",实现1+1>2的诊断效果?西安电子科技大学机电工程学院/高性能电子装备机电集成制造全国重点实验室吕锐婵教授团队在《Journal of Innovative Optical Health Sciences》发表最新研究,提出了一种多尺度特征融合网络(MSFF-Net),通过模拟眼科医生的临床诊断思维,让AI同时具备"全局观"和"聚焦力",在多项公开数据集上达到95%以上的诊断准确率!

Han Xu and Ruichan Lv. Multi-modal retinal disease diagnosis based on fundus photography and OCT images.Journal of Innovative Optical Health SciencesVol. 19, No. 02, 2550032 (2026)

https://doi.org/10.1142/S1793545825500324

正文

临床痛点:为什么单一影像不够?

在临床实践中,眼科医生诊断视网膜疾病时通常需要结合两种检查:

眼底彩照(FCP):提供视网膜的全局视图,可观察血管走行、出血渗出、黄斑区等表面特征,但缺乏深度分辨率,难以发现微小深层病变

OCT影像:提供视网膜的"光学切片",能清晰显示10层结构、测量厚度、发现微小病变,但视野有限,缺乏整体观

图1:同一病灶在不同模态下的表现。(a)息肉状脉络膜血管病变(PCV);(b)干性年龄相关性黄斑变性(Dry AMD)。左图为眼底彩照,右图为OCT影像,箭头指示对应病灶区域

如图1所示,同一PCV病灶在眼底彩照中表现为橘红色结节伴出血,而在OCT中则显示为视网膜下高反射性物质伴色素上皮脱离。两种模态互为补充,缺一不可。

MSFF-Net:模拟医生诊断思维的AI架构

研究团队提出的MSFF-Net模型采用双分支架构设计,如同两位专科医生会诊:

第一分支:全局病灶提取(FCP分支)

  • EfficientNet-b0为骨干网络

  • 创新设计多尺度空间增强模块(MSSE):通过多尺度卷积捕获不同大小的病灶特征,从微动脉瘤到大片出血都能精准识别

  • 采用**CLAHE(对比度受限自适应直方图均衡化)**预处理:解决眼底图像光照不均问题,增强局部病灶对比度

第二分支:聚焦病灶特征(OCT分支)

  • ResNet18为骨干网络

  • 创新设计双特征聚焦模块(DFF):结合通道注意力和空间注意力,抑制OCT固有的散斑噪声,聚焦关键病变区域

  • 采用中值滤波预处理:有效消除散斑噪声,保留组织边界信息

跨模态自适应学习(CMAL)

  • 设计三维跨模态学习机制:在高维、通道、宽维三个方向进行特征交互

  • 实现FCP的全局信息与OCT的局部信息的自适应融合

  • 生成互补性强、判别性高的多模态特征表示

图3:MSFF-Net模型整体结构。(a)图像预处理;(b)FCP全局病灶提取分支(含MSSE模块);(c)OCT聚焦病灶特征分支(含DFF模块);(d)跨模态自适应学习(CMAL)与诊断决策

实验验证:三数据集全面领先

研究团队在三个公开数据集上验证了MSFF-Net的性能:

1. MMC-AMD数据集(674对图像,4分类)

  • 正常、干性AMD、息肉状脉络膜血管病变(PCV)、湿性AMD

  • 准确率88.81%,F1分数90.01%

  • 相比次优方法(MSAN),F1提升2.61%,准确率提升2.99%

2. GAMMA数据集(青光眼筛查,3分类)

  • 正常、早期青光眼、晚期青光眼

  • 准确率95.00%,F1分数95.24%

  • 在青光眼早期诊断这一难点上表现卓越

3. APTOS-2021数据集(低质量图像挑战)

  • 图像质量差、类别不平衡的真实临床场景

  • 准确率71.50%,F1分数71.73%

  • 在低质量条件下仍保持最优性能,展现强鲁棒性

图5:多模态方法在MMC-AMD数据集上的ROC曲线。MSFF-Net的AUC值最接近左上角,诊断性能最优

消融实验:验证每个模块的价值

研究团队通过严谨的消融实验证明了各模块的有效性:

预处理策略验证

  • CLAHE对FCP图像:F1提升1.45%

  • 中值滤波对OCT图像:F1提升0.52%

  • 两者结合:显著提升病灶细节识别能力

融合策略对比

  • 简单相加(Add):F1=80.37%

  • 逐元素相乘(Mul):F1=86.44%

  • 通道拼接(Cat):F1=88.17%

  • CMAL自适应融合:F1=90.01%(最优)

核心模块贡献

  • 单独使用MSSE模块:F1提升0.30%

  • 单独使用DFF模块:F1提升0.63%

  • 单独使用CMAL模块:F1提升1.88%

  • 三者联合使用:相比基线F1提升5.59%(GAMMA数据集提升9.73%)

可视化分析:AI的"注意力"在哪里?

通过类激活映射(CAM)可视化,研究团队发现MSFF-Net的注意力机制与眼科医生的诊断逻辑高度一致:

FCP分支:聚焦于黄斑区出血、渗出、玻璃膜疣等表面病变

OCT分支:聚焦于视网膜下积液、色素上皮脱离、脉络膜新生血管等深层结构

融合决策:综合两种模态的关键区域,避免单一模态的误诊

图12:MSFF-Net的类激活映射可视化。每列展示一种疾病的FCP(上行)和OCT(下行)图像及其热力图,红色区域表示对分类贡献最大的区域,可见模型准确聚焦于病灶部位

主要创新点

1.双分支差异化架构:首次针对FCP和OCT的成像特性设计专用处理分支——FCP分支强调多尺度全局特征,OCT分支强调去噪与聚焦,实现"各取所长"

2.三大核心模块:

  • MSSE模块:多尺度空间增强,捕获从微动脉瘤到大片出血的全尺度病灶

  • DFF模块:双路径注意力机制,同时抑制OCT散斑噪声并增强病灶响应

  • CMAL模块:三维跨模态自适应学习,实现FCP与OCT特征的深度交互融合

3.临床导向的预处理:CLAHE+中值滤波的组合策略,针对性解决两种模态的图像质量问题

4.卓越的性能表现:在三个公开数据集上均达到SOTA(当前最优)水平,尤其在低质量数据上展现强鲁棒性

应用前景

MSFF-Net技术具有广阔的临床转化前景:

  • 辅助诊断系统:集成至眼科影像工作站,为基层医院提供"专家级"诊断建议,缓解医疗资源分布不均

  • 筛查与早诊:用于糖尿病视网膜病变、青光眼等疾病的社区筛查,实现早发现、早治疗

  • 多模态扩展框架:架构可扩展至FFA(荧光素血管造影)、超广角眼底成像等更多模态,构建更全面的诊断体系

  • 模态缺失鲁棒性:未来结合生成对抗网络(GAN),在单一模态缺失时合成互补信息,提升系统可靠性

结语

在人工智能与医学影像深度融合的今天,多模态学习已成为提升诊断准确性的关键路径。吕锐婵教授团队提出的MSFF-Net不仅为视网膜疾病诊断提供了新工具,更展示了一种"模拟临床思维"的AI设计范式——理解不同影像的物理本质,针对性设计特征提取策略,通过自适应融合实现信息互补。

这项研究让我们看到,当光子学成像技术与深度学习智慧相遇,眼科疾病的精准诊疗正迎来新的曙光。期待MSFF-Net早日走向临床,为守护全球数亿患者的视力健康贡献力量。

通讯作者简介

吕锐婵,西安电子科技大学机电工程学院教授, 研究方向为光电集成制造与智能检测。

更多详情见https://faculty.xidian.edu.cn/LRC4/zh_CN/index.htm



https://blog.sciencenet.cn/blog-3534623-1527436.html

上一篇:[转载]【好文荐读】OCT+机器学习:术中实时"光学活检"助力胃肠道肿瘤精准切除
收藏 IP: 115.156.142.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-1 13:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部