Ouariel的个人博客分享 http://blog.sciencenet.cn/u/Ouariel

博文

基于深度语义扩散的深度图修复: 缺陷数据集与模型

已有 114 次阅读 2025-12-26 16:25 |系统分类:博客资讯

引用本文

 

闫涛, 李彤, 张江峰, 钱宇华, 陈路, 吴鹏. 基于深度语义扩散的深度图修复: 缺陷数据集与模型. 自动化学报, 2025, 51(11): 24982519 doi: 10.16383/j.aas.c250024

Yan Tao, Li Tong, Zhang Jiang-Feng, Qian Yu-Hua, Chen Lu, Wu Peng. Depth map repair based on depth semantic diffusion: Defect dataset and model. Acta Automatica Sinica, 2025, 51(11): 24982519 doi: 10.16383/j.aas.c250024

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250024

 

关键词

 

深度图修复,柏林噪声,真实深度缺陷采集,深度语义扩散,深度缺陷数据集

 

摘要

 

深度修复旨在解决三维重建过程中深度图的缺失、噪声和遮挡问题. 然而, 由于深度图来源的多样性和异质性, 现有的深度修复方法难以对复杂场景结构及未知类型深度缺陷实现有效修复. 针对上述问题, 不同于现有方法单纯从提升算法鲁棒性的角度进行研究, 从深度缺陷数据集构建的逆向视角出发, 构建一种真实缺陷采样仿真RDSS数据集, 并在此基础上提出一种基于深度语义扩散的深度图修复模型DR-Net. RDSS数据集通过对真实缺陷的采集与建模, 结合同质化形变拓展和异质化交叉组合, 能够对多种复杂场景中的深度缺陷进行形式化仿真, 有效提升深度缺陷的多样性和场景的覆盖性. 设计的深度图修复模型DR-Net基于U型网络结构, 利用反向透射模块实现高分辨率细节保持的同时, 通过深度语义扩散模块传播图像中的深度语义信息, 进而有效提升修复性能. 实验结果表明: RDSS数据集为基准训练数据集, 可实现在其他数据集中深度图的有效修复. 此外, 与最先进的模型设计类修复方法SDFilter和数据驱动类修复方法G2相比, DR-Net模型在RDSSNYU Depth V2KITTI三类数据集上的均方根误差指标分别平均下降24.85%29.54%, 验证了DR-Net模型的有效性和先进性.

 

文章导读

 

目前, 深度学习模型正逐渐成为三维机器视觉领域的主流方法, 广泛应用于机器人导航[1]、自动驾驶[2]、工业质量检测[3]等领域. 作为典型的数据驱动模型, 其性能和泛化能力高度依赖于数据集的质量和规模. 高质量的数据集不仅能够提供丰富的特征信息, 帮助模型学习数据中的通用模式, 还能减少训练误差, 提高模型在未知数据上的预测能力. 深度估计作为三维重建任务的核心环节[4], 其有效性和准确性通常依赖于高质量数据集的构建[5]. 高质量的数据集应具备良好的场景覆盖性和样本多样性, 以确保模型在复杂场景中的深度估计可靠性[6]. 相反, 单一且同质化的数据集可能导致模型在新场景中深度估计性能的下降[7]. 同时, 由于传感器的物理限制、环境干扰、复杂场景以及算法设计等因素的影响, 深度信息在采集和处理过程中常常面临噪声、缺失值和伪影等问题, 这些缺陷数据会对后续的三维视觉任务产生显著影响[8]. 因此, 获取准确的像素级场景深度信息至关重要.

 

现有的深度估计方法根据是否存在信号发射分为被动方法和主动方法. 被动方法主要以基于图像的深度估计方法[9]为主, 这类方法在估计深度信息过程中可能受到光照变化、纹理特征和深度线索的影响. 光照条件的差异可能导致深度信息的错误估计. 纹理稀疏或重复可能导致双目立体匹配过程中特征点失效. 此外, 深度线索不足可能会导致深度估计错误. 例如, 视差线索不足会导致深度估计出现高噪声或低分辨率的错误; 纹理线索不足会使深度图中出现深度跳变或者空洞; 边缘线索不足则会导致深度图中物体轮廓模糊[10]. 主动方法通过向物体投射激光或者红外光的方式进行深度计算[11], 导致深度信息误差的主要原因包括噪声干扰、多路径效应以及表面反射特性的差异. 噪声干扰可能导致深度信息中出现高频噪声或局部深度值的随机跳变, 这种误差通常表现为深度图中的点噪声或不规则的深度分布. 多路径效应可能导致深度图中出现伪影或重复影像, 即在某一位置显示多个深度值, 或在深度图中重复出现物体轮廓. 表面反射特性的差异则可能导致局部深度失真. 例如, 高反射表面可能导致深度估计出现异常值, 而低反射表面则可能导致深度空洞或者缺失[12].

 

1为基于Kinect相机的主动深度估计和基于双目立体视觉的被动深度估计方法获取的深度信息. 虽然Kinect相机具有一定的深度补全功能, 但仍可以明显观察到深度图中存在大量空洞和噪声区域. 基于双目立体视觉配准的深度信息存在较多的缺失区域, 这种缺失主要是由物体表面的反射特性、数据误差或被判定为无效视差区域等因素导致. 由此可知, 这些存在空洞和缺失的深度图可能对后续的三维重建任务带来挑战.

1  主动与被动方法产生的深度信息缺陷

 

针对上述被动和主动深度估计方法所面临的挑战, 研究者们主要从提升深度信息的完整性角度进行研究. 其中, 被动方法的深度估计主要集中在提升特征匹配的鲁棒性和深度线索的有效利用方面. 主动方法侧重改进传感器设计和增强信号处理技术提升深度估计的准确性. 但这类方法主要从减少或者削弱错误深度信息的角度进行研究, 并未充分利用错误深度信息的价值. 除此之外, 不同深度估计方法产生的错误深度信息特征各异, 这使得对错误深度信息有效建模的难度增大. 因此本文从错误深度信息建模的视角提出一种真实缺陷采样仿真RDSS (Real defect sampling simulation)数据集, 该数据集的构建过程主要强调深度缺陷的真实性与多样性. 主要包含多种真实世界场景和物体的缺陷, 确保所模拟的缺陷能够真实反映实际采集场景的错误深度, 这些缺陷不仅包括典型的深度传感器误差, 如信号衰减和反射干扰, 还涵盖因环境因素导致的噪声和误差. 除此之外, 提出的深度图修复模型DR-Net (Depth repair network)将反向透射和深度语义扩散相结合, 不仅可有效修复由设备差异、环境干扰以及算法误差等导致的深度信息缺失, 还可增强深度信息的结构细节和上下文信息, 从而提升修复效果, 获得更准确、平滑且连续的深度图像. 综上所述, 本文的主要贡献如下:

 

1)从深度缺陷建模的视角提出一种真实缺陷采样仿真RDSS数据集, 将深度缺陷的真实性、复合性和随机性通过真实缺陷提取、模拟缺陷混合、随机区域映射进行增广, 可满足深度修复模型对数据集中缺陷的多样性和覆盖性的需求.

 

2)构建深度图修复模型DR-Net, 可将带缺陷深度图反向透射到高分辨率空间进行细节修复. 模型中的多粒度特征提取有助于实现不同尺度中局部与全局特征的融合; 提出的基于相似度矩阵的深度语义扩散模块, 使得模型可以进一步实现深度图的精细化修复.

2  基于深度语义扩散的深度图修复框架 ((a) RDSS数据集构建; (b) DR-Net修复模型; (c) 修复效果评价)

3  RDSS数据集构建流程示意图

 

真实缺陷采样仿真RDSS数据集从逆向深度缺陷的多样性和场景覆盖性的角度出发, 为深度图修复方法提供基础测试数据集, 通过梳理不同类型深度缺陷的产生原因, 结合不同增广技术最大限度模拟复杂场景下的深度缺陷. 与此同时, 本文提出的DR-Net修复模型整合全新反向透射模块RT和深度语义扩散模块DSD, 反向透射模块通过对称性特征的提取和利用, 使得模型能够更好地理解和还原图像中的结构信息, 增强修复效果的深度信息同质性. 深度语义扩散模块则通过局部空间传播机制, 有效地整合和重建图像细节纹理, 使得修复后的图像在细节处理上更为精细和自然. 实验结果表明DR-Net相比于最先进的模型设计类修复方法与数据驱动类修复方法具有优异的性能, 泛化实验进一步说明了本文真实缺陷采样仿真RDSS数据集的有效性和可用性. 未来工作主要聚焦如何利用RDSS基础数据集与现有数据集进行混合训练或者微调实现模型性能的进一步提升.

 

作者简介

 

闫涛

山西大学大数据科学与产业研究院副教授. 2017年获得中国科学院大学博士学位. 主要研究方向为三维形貌重建与机器视觉. E-mail: hongyanyutian@sxu.edu.cn

 

李彤

山西大学大数据科学与产业研究院硕士. 2025年获得山西大学硕士学位. 主要研究方向为图像处理与机器视觉. E-mail: youlee0918@163.com

 

张江峰

山西大学大数据科学与产业研究院博士研究生. 2023年获得山西大学硕士学位. 主要研究方向为三维形貌重建与机器视觉. E-mail: zjf_8099@163.com

 

钱宇华

山西大学大数据科学与产业研究院教授. 2011年获得山西大学博士学位. 主要研究方向为人工智能与机器学习. 本文通信作者. E-mail: jinchengqyh@sxu.edu.cn

 

陈路

山西大学大数据科学与产业研究院副教授. 2019年获得西北工业大学博士学位. 主要研究方向为机器人抓取与机器视觉. E-mail: chenlu@sxu.edu.cn

 

吴鹏

山西大学大数据科学与产业研究院副教授. 2017年获得汉阳大学博士学位. 主要研究方向为区块链与嵌入式实时系统. E-mail: pengwu@sxu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1515952.html

上一篇:面向可信自动驾驶策略优化: 一种对抗鲁棒强化学习方法
下一篇:独立慢特征分析建模方法及其在动态故障检测中的应用
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-26 23:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部