|
引用本文
谢昭, 马海龙, 吴克伟, 高扬, 孙永宣. 基于采样汇集网络的场景深度估计. 自动化学报, 2020, 46(3): 600−612 doi: 10.16383/j.aas.c180430
Xie Zhao, Ma Hai-Long, Wu Ke-Wei, Gao Yang, Sun Yong-Xuan. Sampling aggregate network for scene depth estimation. Acta Automatica Sinica, 2020, 46(3): 600−612 doi: 10.16383/j.aas.c180430
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180430
关键词
采样汇集网络,场景深度估计,尺度特征汇集,上采样
摘要
针对现有场景深度估计方法中, 由于下采样操作引起的复杂物体边界定位不准确, 而造成物体边界处的场景深度估计模糊的问题, 受密集网络中特征汇集过程的启发, 本文提出一种针对上/下采样过程的汇集网络模型. 在下采样过程中, 使用尺度特征汇集策略, 兼顾不同尺寸物体的估计; 在上采样过程中, 使用上采样反卷积恢复图像分辨率; 同时, 引入采样跨层汇集策略, 提供下采样过程中保存的物体边界的有效定位信息. 本文提出的采样汇集网络 (Sampling aggregate network, SAN) 中使用的尺度特征汇集和采样跨层汇集, 都可以有效缩短特征图到输出损失之间的路径, 从而有利于避免模型的参数优化时陷入局部最优解. 在公认场景深度估计NYU-Depth-v2数据集上的实验说明, 本文方法能够有效改善复杂物体边界等干扰情况下的场景深度估计效果, 并在深度估计误差和准确性上, 优于当前场景深度估计的主流方法.
文章导读
单目图像的场景深度估计, 关注于如何从单目图像中获得场景深度信息. 在Marr奠定的计算机视觉理论中, 将单目图像的场景深度估计作为人类视觉的一项重要任务. 场景深度信息, 对于许多其他任务提供了重要信息, 例如, 语义分割[1]、目标检测[2]、姿态估计[3]、3D重建[4]、即时定位与地图构建[5]等. 随着深度传感器技术的成熟, 含有场景深度信息的RGBD数据集被构建, 拓展了单目图像的场景深度估计的研究领域. 但是, 由于在真实世界的不同场景中, 视觉信息含有大量的复杂干扰因素, 场景深度估计仍然是一个不明确的病态问题.
近年来, 单目图像的场景深度估计, 被视为场景深度值的连续回归问题, 其使用的基本假设是外观特征差异与场景深度的不连续性具有对应关系. 卷积神经网络由于具有准确地图像特征提取能力, 受到场景深度估计研究人员的广泛关注[6-10], 借助场景深度数据集, 卷积神经网络可有效实现场景深度模型的训练. 然而, 现有方法中仍然存在着以下几大挑战: 1)场景深度恢复任务需要像素级的预测结果, 卷积神经网络下采样过程会丢弃部分图像像素, 从而导致场景深度估计精度不足; 2)随着卷积神经网络模型深度的增加, 梯度退化现象严重, 造成场景深度估计模型学习能力降低; 3)卷积神经网络中跨层方式和特征组合方式的多样性, 造成场景深度估计模型的复杂性和预测精度之间难以平衡.
针对现有场景深度估计方法中, 由于下采样操作引起的复杂物体边界定位不准确, 而造成物体边界处的场景深度估计模糊的问题; 受密集神经网络中特征汇集过程的启发[11], 本文提出一种针对上/下采样过程的汇集神经网络模型. 首先, 模型使用层次卷积和下采样策略描述图像中不同层次物体的基本结构; 其次, 采用反卷积和上采样策略, 恢复场景深度分辨率, 避免卷积神经网络对图像分辨率的损失. 最终, 针对采样神经网络训练过程中的梯度退化问题, 通过分析上/下采样过程中物体边缘保持的对应关系, 引入相同尺度采样约束下的跨层连接, 实现高精度的场景深度估计. 本文主要贡献如下:
1)通过分析下采样分辨率损失对复杂边界精度估计的影响, 引入相同尺度采样约束下的跨层连接, 并使用上采样反卷积过程逐层还原图像分辨率, 提出一种采样汇集网络(Sampling aggregate network, SAN)模型.
2)使用尺度特征汇集策略, 兼顾不同尺寸物体的深度估计; 同时, 受密集神经网络中特征汇集过程的启发, 尺度特征汇集和采样跨层汇集一样, 也有效缩短了特征图到输出层的路径, 避免了模型梯度过小陷入局部最优解.
3)通过分析不同尺度采样下的场景深度估计结果, 确定深度卷积神经网络的最佳层次结构, 在NYU-Depth-v2场景深度公认数据集中, 本文提出采样汇集网络模型, 能够提供更准确的场景深度估计结果.
图 1 基于采样汇集网络的场景深度估计
图 2 尺度特征汇集的下采样网络
图 3 上采样反卷积过程
针对现有基于深度卷积模型的场景深度估计方法中, 由于采样分辨率损失, 引起的物体边界估计不足的问题, 受密集网络中的特征汇集策略启发, 本文提出一种针对上/下采样过程的汇集神经网络模型. 通过方法分析和实现分析可以证明: 1)通过采样汇集跨层和上采样卷积策略, 提供了更准确的物体轮廓精度估计; 2)通过尺度特征汇集, 有效地避免了小尺寸物体容易引起的杂乱场景深度现象; 3)受密集神经网络中特征汇集过程的启发, 尺度特征汇集和采样汇集跨层都缩短了特征图到输出层的路径, 从而有利于本文模型的参数优化和准确性提高. 在公认的场景深度NYU-Depth-v2数据库实验结果中, 说明本文方法达到并在部分指标上超过了现有主流方法在深度估计误差和精度上的执行效果, 并通过对小物体干扰、复杂边界干扰、光照干扰、深度范围干扰的定性实现分析, 说明本文方法在处理实际问题真实可靠.
作者简介
谢昭
合肥工业大学计算机与信息学院副研究员. 2007年于合肥工业大学获得博士学位. 主要研究方向为计算机视觉, 图像处理, 模式识别. E-mail: xiezhao@hfut.edu.cn
马海龙
合肥工业大学硕士研究生. 主要研究方向为计算机视觉, 图像处理, 模式识别. E-mail: mhl_hfut@163.com
吴克伟
合肥工业大学计算机与信息学院副研究员. 2013年于合肥工业大学获得博士学位. 主要研究方向为计算机视觉, 图像处理, 模式识别. 本文通信作者. E-mail: wukewei@hfut.edu.cn
高扬
合肥工业大学硕士研究生. 主要研究方向为计算机视觉, 图像处理, 模式识别. E-mail: alto1996@163.com
孙永宣
合肥工业大学计算机与信息学院讲师. 2013年于合肥工业大学获得博士学位. 主要研究方向为计算机视觉, 图像处理, 模式识别. E-mail: syx@hfut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 21:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社