||
导语
随着全球近视发病率持续攀升,高度近视已成为致盲的主要原因之一。玻璃体视网膜界面(VRI)异常——包括玻璃体后脱离(PVD)和视网膜前膜(ERM)——是高度近视的常见并发症,可导致黄斑裂孔、视网膜脱离等严重后果,造成永久性视力损害。
然而,这些病变在OCT图像中呈现细长形态、低对比度、类别相似等特点,传统检测方法难以精准识别。苏州大学电子信息学院石霏副教授团队与上海市第一人民医院合作,在《Journal of Innovative Optical Health Sciences》发表最新研究,提出DS-YOLOv7网络,通过动态蛇形卷积与注意力-卷积融合机制,实现了对VRI病变的全自动、高精度检测。
Xin Zhou, Ying Fan, Gaowei Li, Menghan Li, Weifang Zhu, Dehui Xiang, Xinjian Chen, Xun Xu, and Fei Shi.Detection of vitreoretinal interface abnormalities from OCT images based on DS-YOLOv7 network.Journal of Innovative Optical Health SciencesVol. 19, No. 02, 2650001 (2026)
https://doi.org/10.1142/S179354582650001X
正文
临床挑战:为什么VRI病变检测困难?
玻璃体视网膜界面是玻璃体后皮质与视网膜内界膜之间的关键区域,其异常改变是高度近视致盲的重要机制:
完全性玻璃体后脱离(CPVD):玻璃体后表面完全脱离视网膜,上方形成暗区
部分性玻璃体后脱离(PPVD):部分边缘仍与视网膜粘连,呈"帐篷样"改变
视网膜前膜(ERM):玻璃体残留物在视网膜表面形成的纤维膜,呈亮层状


图1:VRI异常的OCT B-scan图像与人工标注。(a)完全性玻璃体后脱离(CPVD,蓝色框);(b)部分性玻璃体后脱离(PPVD,红色框)与视网膜前膜(ERM,绿色框)
这些病变具有三大检测难点:
1.形态细长:ERM和PVD呈线状或膜状,占据图像面积小
2.背景复杂:视网膜层结构复杂,病变对比度低
3.类别相似:CPVD与PPVD在接近视网膜时特征相似,易混淆
DS-YOLOv7:三大创新模块协同作战
研究团队基于YOLOv7架构,针对性设计了三个核心创新模块:
1. 动态蛇形卷积(DSConv)——捕捉曲线特征
传统卷积核为固定方形,难以适应病变的曲线形态。DSConv将3*3卷积核沿x或y方向展开为长度为9的曲线形,通过可学习偏移量动态调整形状:
连续性约束:在一个方向保持规则,另一方向累积偏移,确保卷积核呈细长形态
自适应感知:卷积核可动态贴合PVD的弧形边界和ERM的线状结构
感受野扩展:最大可覆盖9*9区域,增强对细长目标的感知能力
DSConv被嵌入到Backbone的三个ELAN模块和Neck的一个ELAN-W模块中,形成DS-ELAN和DS-ELAN-W结构。
2. 注意力-卷积混合模块(ACMix)——融合局部与全局
卷积擅长提取局部特征,自注意力机制擅长捕捉全局依赖,ACMix将两者优势融合:
阶段I:通过三个1*1卷积生成中间特征(3N个特征图,N=4个头)
阶段II:双路径并行处理——卷积分支进行移位和聚合,注意力分支计算注意力权重和值矩阵
加权融合:通过可学习参数α和β动态平衡两种特征
ACMix嵌入Neck网络的最后一个ELAN-W模块,增强高层语义特征提取能力,帮助区分相似类别。

图5:ACMix模块结构。阶段I共享1*1卷积投影,阶段II并行执行卷积和自注意力操作,最终加权融合
3. 高效完整交并比损失(ECIoU)——精准定位
针对边界框回归,团队提出ECIoU损失函数,综合考虑:
重叠面积(IoU)
中心点距离
宽高比一致性(CIoU优势)
绝对宽高差异(EIoU优势)

这一设计使边界框收敛更快、定位更准,特别适合细长目标的精确包围。

图2:DS-YOLOv7网络架构。Backbone包含三个DS-ELAN模块,Neck包含DS-ELAN-W和ACMix-ELAN-W模块,Head输出三个尺度的检测结果
实验验证:三折交叉验证全面领先
研究使用上海市第一人民医院采集的1973张OCT B-scan图像(来自46例高度近视患者),进行三折交叉验证:
方法 | mAP@0.5 | mAP@0.75 | mAP@0.5:0.95 | 参数量(M) | FLOPs(G) |
Mask R-CNN | 0.679 | 0.404 | 0.395 | 62.7 | 258.3 |
Cascade R-CNN | 0.687 | 0.411 | 0.407 | 83.2 | 234.5 |
DETR | 0.640 | 0.375 | 0.358 | 60.0 | 187.1 |
RT-DETR | 0.702 | 0.431 | 0.421 | 42.8 | 136.0 |
YOLOv5l | 0.665 | 0.393 | 0.380 | 46.5 | 109.1 |
YOLOv8l | 0.676 | 0.407 | 0.386 | 43.9 | 164.8 |
DS-YOLOv7 | 0.714 | 0.438 | 0.424 | 35.2 | 91.3 |
关键发现:
检测精度最优:mAP@0.5达0.714,较基线YOLOv7提升3.3%
定位精度突出:mAP@0.75达0.438,显著优于其他方法
计算效率最高:参数量仅35.2M,FLOPs仅91.3G,均为对比方法中最低
鲁棒性验证:在公开数据集OCTDL上的泛化测试同样表现优异

图8:DS-YOLOv7与其他检测网络的结果可视化。(a)原图,(b)金标准,(c)DS-YOLOv7,(d)Mask R-CNN,(e)Cascade R-CNN,(f)Libra R-CNN,(g)DETR,(h)Deformable-DETR,(i)RT-DETR,(j)YOLOv5l,(k)YOLOv8l,(l)RCS-YOLO。DS-YOLOv7对ERM的左端、PPVD的起止点、低对比度CPVD的检测更准确
消融实验:验证各模块贡献
模块有效性验证:
基线YOLOv7:mAP@0.5 = 0.681
oDSConv:mAP@0.5 = 0.698(+1.7%)
oACMix:mAP@0.5 = 0.691(+1.0%)
oECIoU:mAP@0.5 = 0.695(+1.4%)
三者联合:mAP@0.5 = 0.714(+3.3%)
DSConv嵌入位置优化:
仅在Backbone嵌入:提升有限
仅在Neck嵌入:提升有限
Backbone+Neck联合嵌入:最佳性能,表明两端协同感知曲线特征的重要性
ACMix嵌入位置优化:
嵌入Backbone末端:mAP@0.5 = 0.711
嵌入Neck末端:mAP@0.5 = 0.714,更适合高层语义融合
主要创新点
1.动态蛇形卷积(DSConv):首次将DSConv引入眼科OCT检测,通过连续性约束的曲线形卷积核,精准捕捉VRI病变的细长曲线形态
2.ACMix注意力融合:在YOLOv7的Neck网络嵌入ACMix模块,实现卷积局部特征与自注意力全局特征的高效融合,提升相似类别区分能力
3.ECIoU损失函数:创新性地结合CIoU和EIoU优势,同时考虑宽高比和绝对宽高差异,优化细长目标的边界框回归
4.轻量化高性能:在参数量和计算量均为最低的情况下,实现检测精度最优,满足临床实时应用需求
5.临床验证充分:在三折交叉验证和独立测试集上均表现优异,证明模型的鲁棒性和泛化能力
应用前景
DS-YOLOv7技术具有广阔的临床应用前景:
辅助诊断系统:集成至OCT设备工作站,实时标记VRI异常,提示医生关注潜在风险区域
筛查与随访:用于高度近视患者的定期筛查,早期发现PVD和ERM,及时干预预防并发症
手术规划:精准定位ERM范围和PVD粘连点,指导玻璃体切割手术方案制定
科研工具:自动化分析大规模OCT数据,研究VRI病变与近视进展的关联规律
多模态扩展:结合超声、眼底彩照等多模态数据,构建更全面的VRI评估体系
结语
在人工智能与眼科影像深度融合的今天,针对病变特点的算法设计是提升诊断性能的关键。石霏副教授团队提出的DS-YOLOv7,通过"蛇形卷积抓形态、注意力融合提语义、ECIoU优定位"的三管齐下策略,成功解决了VRI病变检测中的细长形态、低对比度、类别相似三大难题。
这项研究不仅展示了一种高性能的检测算法,更提供了一种"问题导向的模型设计"范式——深入理解临床病变的物理特性,针对性设计网络结构和损失函数。期待DS-YOLOv7早日走向临床,为守护高度近视患者的视力健康贡献力量。
通讯作者简介

石霏苏州大学电子信息学院副教授,从事人工智能算法研究及其在医学图像处理与分析的应用。
更多详情见https://web.suda.edu.cn/shifei/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-22 00:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社