|
引用本文
葛泉波, 李凯, 张兴国. 基于多关键点检测加权融合的无人机相对位姿估计算法. 自动化学报, 2024, 50(7): 1402−1416 doi: 10.16383/j.aas.c230297
Ge Quan-Bo, Li Kai, Zhang Xing-Guo. Relative pose estimation algorithm for unmanned aerial vehicles based on weighted fusion of multiple keypoint detection. Acta Automatica Sinica, 2024, 50(7): 1402−1416 doi: 10.16383/j.aas.c230297
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230297
关键词
辅助无人机降落,舰载视觉系统,6D位姿估计,加权融合,关键点检测,级联特征提取
摘要
针对无人机降落阶段中无人船受水面波浪影响导致图像产生运动模糊以及获取无人机相对位姿精度低且鲁棒性差的问题, 提出一种基于多模型关键点加权融合的6D目标位姿估计算法, 以提高位姿估计的精度和鲁棒性. 首先, 基于无人船陀螺仪得到的运动信息设计帧间抖动模型, 通过还原图像信息达到降低图像噪声的目的; 然后, 设计一种多模型的级联回归特征提取算法, 通过多模型检测舰载视觉系统获取的图像, 以增强特征空间的多样性; 同时, 将检测过程中关键点定位形状增量集作为融合权重对模型进行加权融合, 以提高特征空间的鲁棒性; 紧接着, 利用EPnP (Efficient perspective-n-point) 计算关键点相机坐标系坐标, 将PnP (Perspective-n-point) 问题转化为ICP (Iterative closest point) 问题; 最终, 基于关键点解集的离散度为关键点赋权, 使用ICP算法求解位姿以削弱深度信息对位姿的影响. 仿真结果表明, 该算法能够建立一个精度更高的特征空间, 使得位姿解算时特征映射的损失降低, 最终提高位姿解算的精度.
文章导读
6D目标位姿估计是计算机视觉领域的关键技术, 其在机器人抓取、增强现实和舰载机降落[1−2]等领域有着广泛应用. 6D目标位姿估计的目标是利用相机拍摄到的图像或视频获得目标到相机坐标系的单应性变换. 现阶段6D位姿估计方法主要分为传统方法和基于深度学习的方法. 传统6D位姿估计方法一般是基于特征匹配来完成的, 首先提取图像中的特征, 如SIFT[3]、SURF[4]、ORB[5]等特征点, 然后与先验模板库中的图像进行特征匹配, 再将匹配成功的特征映射关系转化为PnP (Perspective-n-point)[6]问题进行求解, 最终得到目标的位姿信息. 此类方法的精度受制于目标纹理丰富度和模板库数量, 当目标纹理不清晰或模板库准备不够充分时, 其位姿估计精度会大大降低. 随着人工智能技术的发展, 文献 [7−9]研究了基于深度学习的6D位姿估计, 该类方法主要分为直接回归法和间接回归法. 直接回归法实质是训练一个神经网络, 使其能够端到端地通过一幅图像输出目标的旋转和平移向量. 整个网络架构一般由目标检测与目标跟踪、空间映射、位姿恢复和位姿优化4个模块组成. 文献[10−11] 利用多网络结构在语义分割、平移、旋转三个网络子分支共享提取到的特征, 增强了对遮挡的对抗性, 但无法保证该方法的实时性. 文献[12]在估计时引入目标深度信息, 去除了对位姿优化的依赖, 但是在面对光照影响时表现不佳. 文献[13−14]则是针对未知新物体的类别级位姿估计问题, 通过充分考虑类别的共有特征来提高模型的泛化性, 但在面对多目标或者目标存在噪声时, 难以保证该方法的精度. 间接回归法的实质是寻找一组相同点在两个不同坐标系下的转换关系. 按照先验信息的不同可以分为2D-3D对应和3D-3D对应, 其中在已知一组点的2D相机投影坐标和与之对应的3D世界坐标(即地图是先验的)时, 可以构建PnP问题, 利用2D与3D间的对应关系进行位姿求解, 得到相机相对于世界坐标系的位姿, 然后利用已知的目标世界坐标系位姿和相机世界坐标系位姿求解出目标相对于相机的位姿. 在关键点定位优化方面, 如PVnet (Perspective-n-Point network)[15]利用每个关键点附近的向量场能够更加精确地定位出关键点位置,以获取精度更高的特征空间. 不利用目标自身关键点的方法, 例如BB8[16]、YOLO-6D[17]、SSD-6D[18]等方法利用基于卷积神经网络的网络框架对输入的RGB图像进行目标3D包围盒顶点的预测, 然后将其投影到二维平面, 并使用PnP方法进行位姿求解. 但是, 以上方法在面对包围盒超出图像边框时会造成错误的位姿估计. 与检测目标特征点的方法相比, 文献[19−22]将地标作为先验信息来提取特征, 提高了特征间的联系, 该方法虽可增加整体特征精度, 但缺乏思考噪声对地标纹理的破坏问题. 文献[23−26]则考虑到图像存在噪声的影响, 对输入的特征分别使用标志点加权、特征简化以及特征融合等方法进行降噪, 不过仍缺乏讨论复杂环境对成像设备的干扰问题. 而在已知一组点的3D相机坐标系坐标和与之对应的3D坐标(目标的3D模型)时, 可以构建ICP (Iterative closest point)[27]问题, 利用3D点与3D点间的对应关系对两片点云进行配准, 以求解相机相对于目标坐标系的位姿. 然而在面对大规模点云配准时, 该类方法易产生错误的3D-3D映射关系, 在进行位姿解算时会带来很大的误差, 对最终的位姿结果的精度影响较大.
面对实际工程应用, 上述方法均缺少对成像设备受环境干扰的考量且在计算位姿时未考虑特征空间出现错误的情况, 这可能造成实际位姿计算出现偏差, 进而增大应用的危险性. 考虑以上问题, 本文针对无人船辅助无人机完成水面降落的姿态估计问题, 提出一种基于关键点的6D位姿估计算法, 利用多模型的关键点检测算法和先验的3D点信息构造PnP问题, 然后利用EPnP (Efficient perspective-n-point)[6]算法得到每个关键点的相机坐标系坐标, 最终转化为ICP问题并求解位姿. 本文主要工作如下: 1)针对成像设备因受海面随机抖动而产生运动模糊问题, 在预处理阶段利用维纳滤波进行非盲图像复原, 并引入受无人船动平台影响的图像数据集. 2) 考虑单一关键点类型无法处理所有程度的运动模糊问题, 提出关键点类型选择算法. 3)鉴于稀疏匹配方法存在不稳定的问题, 提出基于多特征提取模型加权融合的级联回归方法, 以增加关键点数量, 提高特征空间的多样性; 同时引入特征空间建立时的筛选机制, 以增加特征空间的鲁棒性和精度. 4) 提出利用关键点的离散度作为权值的远距离ICP优化方法, 以减少深度信息对位姿的影响.
本文中动平台指的是无人机的降落平台, 即无人船本身, 无人船在水上场景行驶时与水面波浪存在相对运动, 因此在文中称之为动平台. 其一般受水面风浪流影响, 存在随机的六自由度抖动现象, 容易对成像设备造成一定程度的运动模糊. 根据国际海事组织(International Maritime Organization, IMO)要求, 船舶在低载荷的状态下倾角应处于30∘以下, 同时为验证在大倾角下算法依旧有效, 文中实验结论涉及到的运动倾角被限制在45°以下.
图 1 基于关键点检测的位姿估计框架及其缺点
图 2 运动模糊对纹理的影响
图 3 解决方案
针对无人机降落阶段, 因无人船受海面波浪影响对图像产生运动模糊, 导致获取无人机相对位姿精度低且鲁棒性差的问题. 本文首先考虑到海面情况与陆地上的不同, 选用了针对海面随机波浪影响的图像复原方法来增强输入数据的质量. 随后考虑到海面波浪会对图像产生随机的不同程度运动模糊, 设计了关键点类型选择算法, 增强了每次提取关键点的适用性. 然后考虑到单一特征提取模型在面对动平台抖动时, 其特征空间可能被破坏, 运用级联的方式进行特征提取, 利用每次回归的形状增量作为加权融合的权值参考, 以此来提升特征空间的鲁棒性. 最后考虑到场景深度信息较大会放大位姿解算的误差, 设计了一种利用关键点解集离散度作为权值的ICP优化算法来增大优化程度, 使得位姿的精度得到有效提高. 通过理论分析和仿真比较表明, 所提出的方法在海面波浪的仿真环境下取得了先进的性能. 特别地, 基于本文研究的无人机降落场景, 其他无人船与无人机协同完成任务的场景将是未来的研究方向.
作者简介
葛泉波
南京信息工程大学教授. 主要研究方向为状态估计与信息融合, 目标检测识别与跟踪和自主无人系统与试验测试. 本文通信作者. E-mail: QuanboGe@163.com
李凯
南京信息工程大学硕士研究生. 主要研究方向为无人机视觉位姿估计, 无人机视觉目标跟踪. E-mail: 20211249528@nuist.edu.cn
张兴国
中国飞行试验研究院高级工程师. 主要研究方向为飞机试验技术, 智能试验技术. E-mail: zhangxg011@avic.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-4 12:50
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社