|
引用本文
张振宇, 杨健. 基于元学习的双目深度估计在线适应算法. 自动化学报, 2023, 49(7): 1446−1455 doi: 10.16383/j.aas.c200286
Zhang Zhen-Yu, Yang Jian. Online adaptation through meta-learning for stereo depth estimation. Acta Automatica Sinica, 2023, 49(7): 1446−1455 doi: 10.16383/j.aas.c200286
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200286
关键词
深度估计,在线学习,元学习,域适应算法,深度神经网络
摘要
双目深度估计的在线适应是一个有挑战性的问题, 其要求模型能够在不断变化的目标场景中在线连续地自我调整并适应于当前环境. 为处理该问题, 提出一种新的在线元学习适应算法(Online meta-learning model with adaptation, OMLA), 其贡献主要体现在两方面: 首先引入在线特征对齐方法处理目标域和源域特征的分布偏差, 以减少数据域转移的影响; 然后利用在线元学习方法调整特征对齐过程和网络权重, 使模型实现快速收敛. 此外, 提出一种新的基于元学习的预训练方法, 以获得适用于在线学习场景的深度网络参数. 相关实验分析表明, OMLA和元学习预训练算法均能帮助模型快速适应于新场景, 在KITTI数据集上的实验对比表明, 本文方法的效果超越了当前最佳的在线适应算法, 接近甚至优于在目标域离线训练的理想模型.
文章导读
深度估计是视觉场景理解中的基础性问题, 并且越来越多地受到计算机视觉和机器人研究领域的关注. 近年来, 一些基于深度学习的RGB自动深度估计方法陆续提出, 取得了令人印象深刻的效果[1-7]. 在这些研究工作中, 深度神经网络模型的训练需要依赖深度真值作为监督信息, 可供训练的深度真值越多则效果越好. 然而, 在现实场景中进行数据收集需要对应的硬件平台和设备(例如汽车和雷达), 且使其在不同环境中工作相当长的时间. 因此, 数据收集通常需要昂贵的财力和时间开销, 这制约了以上监督学习方法的实际应用. 为了避免开销较大的数据收集和人工标注过程, 一些自监督(也称为无监督)深度估计方法相继提出[8-11]. 值得一提的是, 尽管没有精确的深度真值, 这些方法仍能通过图像重构误差训练模型, 获得与监督学习方法接近的结果.
尽管上文提到的自监督方法获得了相当好的结果, 其在现实场景中的使用仍然受到制约. 原因在于这些方法均在封闭世界假设下进行设计和评估, 这意味着训练和测试数据处于同一个数据集, 或者二者的环境表观差异很小. 当模型在全新的场景中工作时, 由于数据域转移的影响, 方法的结果将大打折扣. 因此, 为了增强方法的实际应用效果, 用于深度估计的深度神经网络模型需要考量开放世界的设定, 即可用的视觉数据是在连续变化的环境中被采集的数据流. 以自动驾驶场景为例, 模型需要连续适应于变化的环境(如城市、乡村和高速公路场景等)以及光线场景(如黑夜、黄昏和白昼等). 也就是说, 深度神经网络模型需要具有在线适应的能力.
根据以上的分析和动机, 本文提出了一种基于元学习的双目深度估计方法, 用于需要快速在线适应的开放世界场景. 方法的框架在图1中展示. 首先, 一种新的在线元学习适应算法(Online meta-learning with adaptation, OMLA)得以提出, 用于模型的快速在线学习. 具体地, 为了处理源域数据(即训练数据)和目标视频数据之间的域转移问题, 模型通过调整源域和目标域的批归一化(Batch normalization, BN)层统计量, 使域间特征分布对齐. 该方法受启发于文献[12-13], 本文对其进行改进, 使该方法适用于在线学习场景. 然后, 特征对齐过程与元学习算法相结合, 利用先前时刻的模型反馈选择能够快速适应未来场景的网络超参数. 此外, 本文提出了一种新的基于元学习的预训练方法(元预训练). 具体地, 在使用OMLA算法进行一段视频的在线适应过程后, 模型评估其在未来帧上的表现, 并以此为反馈更新初始参数. 由此, 模型获得了适用于OMLA 算法进行快速在线学习的初始参数.
图 1 本文提出的基于元学习的深度估计在线适应算法框架
本文的主要贡献总结如下: 1) 提出了一种新的基于元学习的在线适应算法, 用于在线视频流的双目深度估计. 该方法与特征对齐过程相辅相成: 元学习算法有助于更新特征对齐动量以提升模型的适应能力; 特征对齐则更好地支持元学习算法进行优化过程的快速收敛. 2) 提出了一种基于元学习的预训练方法, 利用OMLA 算法使模型获得适用于快速在线学习和收敛的参数以及特征对齐动量. 3) 在KITTI数据集[14]上的实验表明, 本文提出的OMLA算法与预训练方法均有助于在线深度估计效果的提升, 其效果超越了当前最佳的在线深度估计适应算法[15].
图 2 本文提出的在线元学习适应方法
图 3 在KITTI Eigen测试集中3个不同视频序列上的效果 (为了展示模型的在线适应效果随时间的变化, 此处展示了视频初始, 中段和末段时刻的深度估计效果)
本文研究了深度估计模型的在线适应问题, 并提出了一种新的在线元学习适应算法OMLA. 该算法适用于需要深度估计网络模型快速收敛和适应于目标视频流的在线序列化学习场景. 在公开数据集上的大量实验表明, 相对于一般的梯度下降算法, 本文方法较好地处理了域转移问题, 并通过元学习方法充分利用每一时刻的学习反馈, 有助于提升深度估计模型的在线适应效果. 与当前最好的方法相比, 本文方法取得了明显提升; 与理想模型相比, 本文方法获得了接近的并有竞争力的效果.
作者简介
张振宇
南京理工大学计算机科学与工程学院PCA 实验室博士研究生. 2015年获得南京理工大学理学院信息与计算科学系学士学位. 主要研究方向为基于视觉的深度估计方法, 深度学习算法. E-mail: zhangjesse@njust.edu.cn
杨健
南京理工大学计算机科学与工程学院教授, 长江学者, IAPR Fellow. 主要研究方向为矩阵回归, 自动驾驶和机器人场景的视觉感知. 本文通信作者. E-mail: csjyang@njust.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 02:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社