Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

【当期精选】基于立体视觉的大规模3D语义地图构建

已有 2496 次阅读 2018-4-10 10:02 |个人分类:好文推荐|系统分类:论文交流

IJAC导读】本期精选北京理工大学杨毅副教授团队的研究成果。研究提出一种生成户外大规模3D致密语义地图(outdoor large-scale 3D dense semantic map)的全新方法。将语义标签(semantic labels)引入3D重建中。语义地图为场景理解提供语义信息,可保证机器人导航、定位和自动驾驶的有效性,应用于诸如车道识别(lane recognition)、自由空间提取中(free space extraction)。帮助机器人更好地完成目标捕获(target capture)、变化检测(change detection)和目标搜索(object search)等任务。


地图构建(mapping),是一种移动机器人进行场景感知和理解的方式,也是保证其展开正确行动的基础。

 

当前,关于2D网格地图(2D grip maps)构建的研究不胜枚举,其中不乏诸多基于2D网格地图的导航(navigation)和规划(planning)算法。然而,日益复杂的应用场景(application scenarios)对机器人识别周围环境的能力提出了更高要求。也因此,在移动机器人应用中,对周围环境进行3D重建(3D reconstruction)的能力成为提升导航和定位准确性(navigation and location accuracy)的关键所在。但传统3D重建方法仅仅集中于环境空间结构(spatial structure)的重建,而忽略对环境必要的理解(necessary understanding),这严重限制了3D地图的应用范围。

 

4月,IJAC发表来自北京理工大学杨毅副教授团队的研究成果:Large-scale 3D Semantic MappingUsing Stereo Vision。该研究提出一种全新的“致密3D语义地图”(dense 3D semantic map)构建方法,将语义标签(semantic labels)引入3D重建中。带有语义标签(semantic labels)的地图被称为语义地图(semantic maps)。语义地图为场景理解提供语义信息,可保证机器人导航、定位和自动驾驶的有效性,应用于诸如车道识别(lane recognition)、自由空间提取中(free space extraction)。这对于机器人与物体在场景中进行互动十分重要,包括目标捕获(target capture)、变化检测(change detection)和目标搜索(object search)。


 

文中提出的系统采用双目摄像机(binocular camera)来捕捉彩色图像(color images),每个占用体素(occupied voxel)均包含一个预定义类别(predefined category),如植物(vegetable)、车辆(vehicle)、道路。同时,该系统还可以检测和去除动态障碍(dynamic obstacles),减少移动车辆和行人带来的影响。

Fig.2.png

系统将哈希表(hash table)作为数据存储结构(structure of data storage),从而避免对CPU内存(CPU memory)的依赖。此外,还融入基于图像语义分割算法(image semantic segmentation algorithm)---SegNet的最新深度学习技术,以此保证处理速度(processing speed)接近实时(real time)水平。

Fig.3.png 

如上图所示,SegNet包括编码网络(encoder network)、解码网络(decoder network)Softmax分类器(softmax classifier)。通过进一步计算可得出语义分割结果(semantic segmentation result)。(详细见原文)

Fig.4.png

SegNet中编码器(encoder)和解码器(decoder)的结构如上图所示。(详细见原文)

Fig.1.png

基于KITTI数据集,上图展示了户外场景(outdoor scene)中,致密3D语义地图的构建过程,其中包含两部分:本地语义地图构建(local semantic map)(单帧single frame)、全球语义地图构建(global semantic map)(多帧multiple frames)

 

文章提出的系统将本地语义地图构建过程分为四个平行步骤:3D重建、图像语义分割(image semantic segmentation)、图像运动分割(image motion segmentation)、摄像机运动估计(camera motion estimation)。研究引入全连接体素条件随机场推理算法(fully connected voxel conditional random field inference algorithm (Voxel conditional random field (CRF)),将从3D重建中构建的点云(point cloud)空间关系(spatial relation)考虑在内,进而优化语义标签(semantic labels)

Fig.5.png

而后,借助语义信息细化(refine)图像运动分割(image motion segmentation),为去除移动障碍(dynamic obstacles)提供运动模板(motion mask)

Fig.7.png

户外场景(outdoor scene)中经常会出现运动物体(moving objects),这会影响地图构建的准确性。上图展示了消除动态背景(dynamic background)中运动物体的方法。

Fig.8.png

文章将静态设定点(static point set)作为本地3D语义地图(local 3D semantic map)。构建大规模场景(large-scale scenarios)的致密3D语义地图是一个非常具有挑战的过程。因此,研究将关键帧序列(key frame sequence)融入系统中,借助视觉里程计(visual odometry)估计每一帧(each frame)的摄像机方位(camera pose),将本地语义地图(local semantic map)转变成全球地图坐标(global map coordinates)。

 

全文结构如下:第三部分介绍3D重建方法,第四和第五部分集中讨论语义分割和细化(refinement),第六和第七部分分别讨论运动分割和细化(motion segmentation and its refinement)。第八部分展示了一种有效的关键帧融合方法(key-frame fusion method),最后一部分是本研究的实验结果。

 

◇◇◇◇◇◇◇

全文信息

Large-scale 3D Semantic Mapping Using Stereo Vision

Yi Yang, Fan Qiu, Hao Li, Lu Zhang, Mei-Ling Wang, Meng-Yin Fu

Abstract:

In recent years, there have been a lot of interests in incorporating semantics into simultaneous localization and mapping (SLAM) systems. This paper presents an approach to generate an outdoor large-scale 3D dense semantic map based on binocular stereo vision. The inputs to system are stereo color images from a moving vehicle. First, dense 3D space around the vehicle is constructed, and the motion of camera is estimated by visual odometry. Meanwhile, semantic segmentation is performed through the deep learning technology online, and the semantic labels are also used to verify the feature matching in visual odometry. These three processes calculate the motion, depth and semantic label of every pixel in the input views. Then, a voxel conditional random field (CRF) inference is introduced to fuse semantic labels to voxel. After that, we present a method to remove the moving objects by incorporating the semantic labels, which improves the motion segmentation accuracy. The last is to generate the dense 3D semantic map of an urban environment from arbitrary long image sequence. We evaluate our approach on KITTI vision benchmark, and the results show that the proposed method is effective.

Keywords:

Semantic map, stereo vision, motion segmentation, visual odometry, simultaneous localization and mapping (SLAM).

Full Text:

1) SpringerLink:

https://link.springer.com/article/10.1007/s11633-018-1118-y

2) IJAC Website:

http://www.ijac.net/EN/abstract/abstract1988.shtml

 

◇◇◇◇◇◇◇ 

IJAC专题推荐

【最新专题】自动化与计算方法的研究进展

IJAC专题】计算机视觉 | 让机器“看”懂世界

10月重磅 | IJAC特约专题:类人计算

IJAC专题】AI & 图像处理

IJAC专题】机器人相关论文荐读

IJAC专题】“自动控制”精选论文


◇◇◇◇◇◇◇

精彩回顾

【当期目录】IJAC2018年第1期上新!

2018国际会议参考列表(上)

2018国际会议参考列表(下)

【投稿指南】您想问的都在这里!

IJAC支招】Poster=PPT? NO!

支招| 教您如何提升科研成果的影响力


◇◇◇◇◇◇◇ 

IJAC往期目录

【当期目录】IJAC2018年第1期上新!

【当期目录】IJAC第六期上新!年度压轴!

10月重磅 |  IJAC特约专题:类人计算

【当期目录】贴“秋膘”:IJAC第4期精神大餐已上齐!

IJAC最新发表】儿童节快乐!领礼物啦~(●∀●)

IJAC帮您轻松摆脱假期综合症!

IJAC新年首期,重磅来袭(Vol. 14 No.1, Feb. 2017)


本文系IJAC小编编译,若内容或翻译有失偏颇,欢迎留言指正


更多精彩内容,欢迎关注

1) IJAC官方网站:

http://link.springer.com/journal/11633

http://www.ijac.net

2) Linkedin: Int. J. of Automation and Computing

3) 新浪微博: IJAC-国际自动化与计算杂志

4) Twitter: IJAC_Journal

5) Facebook: ijac journal

关于杂志或文章,您有任何意见或建议,欢迎后台留言或私信小编

本文编辑:欧梨成



http://blog.sciencenet.cn/blog-749317-1108329.html

上一篇:『Science』聚焦:静态网络与时效网络,孰优孰劣?
下一篇:【人气集锦】2016-2017年高被引+高下载论文

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-9-25 13:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部