|
引用本文
顾炼, 许诗起, 竺乐庆. 基于FlowS-Unet的遥感图像建筑物变化检测. 自动化学报, 2020, 46(6): 1291-1300. doi: 10.16383/j.aas.c180122
GU Lian, XU Shi-Qi, ZHU Le-Qing. Detection of Building Changes in Remote Sensing Images via FlowS-Unet. ACTA AUTOMATICA SINICA, 2020, 46(6): 1291-1300. doi: 10.16383/j.aas.c180122
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180122
关键词
FlowS-Unet,建筑物变化检测,全卷积神经网络,多尺度交叉训练,多重损失
摘要
针对目前人为探察土地资源利用情况的任务繁重、办事效率低下等问题, 提出了一种基于深度卷积神经网络的建筑物变化检测方法, 利用高分辨率遥感图像实时检测每个区域新建与扩建的建筑物, 以方便对土地资源进行有效管理.本文受超列(Hypercolumn)和FlowNet中的细化(Refinement)结构启发, 将细化和其他改进应用到U-Net, 提出FlowS-Unet网络.首先对遥感图像裁剪、去噪、标注语义制作数据集, 将该数据集划分为训练集和测试集, 对训练集进行数据增强, 并根据训练集图像的均值和方差对所有图像进行归一化; 然后将训练集输入集成了多尺度交叉训练、多重损失计算、Adam优化的全卷积神经网络FlowS-Unet中进行训练; 最后对网络模型的预测结果进行膨胀、腐蚀以及孔洞填充等后处理得到最终的分割结果.本文以人工分割结果为参考标准进行对比测试, 用FlowS-Unet检测得到的F1分数高达0.943, 明显优于FCN和U-Net的预测结果.实验结果表明, FlowS-Unet能够实时准确地将新建与扩建的建筑物变化检测出来, 并且该模型也可扩展到其他类似的图像检测问题中.
文章导读
在国土监察业务中, 很重要的一项任务是监管地上建筑物的建、拆、改、扩.现阶段解决这项工作的方法主要有两种:一是依靠人工实地调研取证, 但这对于大城市来说完全靠国土局公务员全城巡查是不可能的, 既耗费大量的人力、物力以及财力, 又无法做到全方位实时监管国土资源利用现状; 二是在各地安装高清摄像头, 利用视频检测技术与GPS设备, 建成国土资源综合动态智能监管系统.但这种方法建设成本高, 时间跨度长, 且只适用于小区域试点开展.
近年来, 我国卫星发射次数不断上升, 多颗卫星在太空运行后带来大批遥感数据, 这些数据都是宝贵的历史材料, 在城市发展中存在多方位的应用, 如可应用于灾害监测服务、土地资源管理等领域, 并推送给社会组织、政府机构甚至个人, 使他们共同参与城市管理和监督.将遥感技术应用于国土资源调查时, 不仅具有信息多、效率高、多层次、现实性强等特点, 而且与传统方法相比较具有费用低、速度快、精度高、周期短的优势.
有研究人员采用传统图像处理方法来检测卫星图像上建筑物的变化, 这些检测方法从开始的面向像元逐渐向基于对象的方法过度, 提出了均质区域识别[1]、分水岭分割[2]、形态学房屋指数计算[3]、能量最小化[4]、聚类提取城市变化[5]、先验形状约束水平集模型[6]、自下而上/自上而下混合算法[7]、简单几何结构法[8]等方法和模型.然而这些方法存在以下不足: 1)同一地点不同时期的图像间配准精度要求高, 多数方法以图像间的精确配准为前提, 但实际应用中如此高的配准精度通常难以达到, 导致算法的漏检率、错检率依然很高; 2)遥感数据要求严格, 特定方法只适用于特定数据, 如有的要求多波段影像, 有的需要三维数据[9].
深度学习技术在近几年发展迅猛, 传统的深度卷积分类网络如AlexNet[10]和VGGNet[11]通常包含全连接层(Full connected layer), 要求输入图像的大小固定.这些网络模型存在存储开销大, 计算效率低以及感知区域大小受限的缺陷.针对语义分割任务, Long等[12]提出的全卷积神经网络(Fully convolutional network, FCN), 使得分割可以在任意大小的图像上进行, 与基于分类网络的图像分类方法相比, 提高了处理速度.但用FCN进行语义分割得到的结果仍不够精细, 其低分辨率的输出牺牲了定位精度[13].只对各个像素进行独立分类, 未充分考虑像素与像素之间空间和值的关系对分类结果的影响, 缺乏空间一致性. Ronneberger等[14]提出的U-Net是对FCN的延伸, 是一种编码器解码器结构, 该网络较浅层用来解决像素定位问题, 较深层用来解决像素分类问题, 通过对低层次特征映射的组合, 构建高层次复杂特征, 来实现精确定位, 解决图像分割问题, 是目前扩展性较好的全卷积网络.但该网络最后一层特征是与前几层特征上采样放大后融合所得, 更适应于分割所有建筑物, 而对于本文任务, 其特征表达能力不够, 易出现过拟合现象, 无法精准预测出建筑物的变化情况. Hariharan等[15]针对卷积神经网络(Convolutional neural network, CNN)最后一层能较好地描述类别语义, 而缺少位置等细节信息的问题提出了超列(Hypercolumn)的概念, 即对应像素的网络所有节点的激活进行上采样串联作为特征, 使最后一层的特征在空间上比较精细, 进行目标的细粒度定位.对于物体变化检测方面, FlowNet[16]是将CNN运用于光流上检测的网络, 网络分为收缩和放大部分, 其收缩部分为九层卷积结构, 放大部分是将收缩部分对应的特征图经反卷积及上采样将光流预测连接起来的步骤, 此步骤重复四次, 每一步提升两倍分辨率.
卫星图像完全不同于分辨率高、物体差异性大、轮廓复杂、同时遮挡很严重的ImageNet、NYUDv2等图像数据集, 卫星图像分辨率低, 建筑物的差异性小、轮廓也更简单, 表现为具有一定面积、长度和宽度的面状地物[17].而且不同卫星、不同拍摄角度等复杂的遥感成像过程还会引起生成的卫星图片色调不同、建筑倾斜角度不同的问题, 不同波段之间存在明显的相关性差异.文献[18-19]已经认识到针对自然图像设计的分割方法是不适用于有不同数据特征、尺寸更大的遥感图像.设计能对此类卫星遥感数据产生好的预测结果的深度学习模型是需要解决的问题之一.文献[20]使用弱监督的SegNet以及弱监督语义分割模型在多个国家的卫星图上进行微调检测建筑物, 再将两个模型预测出的结果结合来得到更好的结果.文献[21]是对高分辨率的谷歌卫星图像从RGB颜色空间上转换到Lab色彩空间, 再从Lab色彩空间的亮度分量上设置双阈值找出阴影, 将阴影形状结合太阳照射方向自动选择出建筑物的缓冲区域来作为有监督分类的训练区域, 最后对每个缓冲区域值使用改进的平行六面体监督分类器检测出建筑物.文献[22]提出先尝试找到可能的物体中心点, 然后使用R-FCN与ResNet-101结合的模型根据中心点生成检测框.其他典型的方法还有三种CNN多尺度捕获文理信息[23]、两阶段CNN模型[24]、结合边缘先验知识与分类得分法[25]等. 2017年阿里云天池"广东政务数据创新大赛-智能算法赛"要求参赛者完成由不同年份的遥感图像自动检测建筑物变化情况的任务.该任务不仅要求模型能学习图像特征表达, 还能学习两幅图像对应像素点之间的联系.本文作者参加了该竞赛, 提出并实现了FlowS-Unet模型, 最终取得综合第2名的成绩.
本文受超列和FlowNet中的放大部分细化结构启发, 将FlowNet中的细化结构运用到U-Net并结合其他改进方法提出FlowS-Unet网络.超列和FlowNet中的细化结构相似, 都是将不同层次的特征图进行若干次上采样然后进行串联作为特征, 使特征在空间上更加精细, 更适合于目标的细粒度定位. FlowS-Unet模型沿用U-Net的U型结构框架, 输入输出都是图像, 左半部分框架不变, 右半部分加入细化结构, 每层都独立预测.在文献[13]中也提出, 对于建筑物的提取方面, 是需要不同层特征共同来确定该像素是否为建筑物的.例如, 高分辨率特征图对于精确捕捉建筑物的边界是需要的, 而深层低分辨率特征图可对地面是建筑物还是空地进行分类.实验表明该模型对识别两期同一地区的QuickBird卫星影像差异比FCN、U-Net更有效, 从而检测出建筑物变化情况, 检测到的边缘更加明晰, 精确度有很大提升.因拍摄时间不同, 卫星遥感影像中的建筑物变化信息复杂, 除水泥地上扩增建筑之外, 还有从水体、裸土、植被等面上扩增的建筑物; 同时建筑物的尺度也具有多样性, 包括了地铁站、居民区、城中村、厂房等不同形态大小的建筑; 已有的方法检测建筑物变化效果不佳, 而FlowS-Unet模型具有很强的学习能力, 且易于扩展, 可以在数据集较小的情况下表现出较强的泛化能力, 性能稳定, 鲁棒性强.
图 1 一种端到端的建筑物变化检测概览图
图 2 整体方案实施流程
图 3 部分卫星图原图
针对目前人为探查土地资源利用情况的任务具有人力成本高、劳动强度大、办事效率很低下等问题, 本文提出了一种基于卷积神经网络的智能建筑物变化检测方法, 将深度卷积神经网络模型与高清卫星影像数据相结合, 充分挖掘卫星遥感数据的价值, 助力解决城市治理的痛点难点, 帮助政府实现信息化向智能化的转变, 具有较高的社会价值与经济价值.一方面通过对卫星图像进行裁剪、去噪、归一化、数据增强等方式, 处理好的数据通过多尺度特征融合与滑动窗口相结合的方式输入网络中.另一方面, 在全卷积神经网络的基础上提出FlowS-Unet模型, 很好地将低层高分辨率信息与高层语义信息融合到一起, 并在每个融合后的特征图上单独进行预测, 来减小损失值, 增强网络的表达能力.最后对网络预测的结果进行膨胀、腐蚀以及填充孔洞等一系列的后处理, 使得分割效果更加完美.通过与传统的人工标注结果对比发现, 该方法能够快速地识别出不同年份、不同拍摄角度、不同清晰度下的卫星图片中的建筑物方面的差异性, 并完整地将目标自动分割出来, 具有高效性、可实施性.并且此方法还可延伸到相类似的图像匹配方面, 如应用到医疗图片的分析与识别、纸币等印刷品的缺陷检测等, 只要稍加修改就可以对其他领域进行研究和扩展, 具有非常强的可塑性.因硬件设备计算能力有限, 边缘分割还不够精细, 训练模型的时间性能还有提升.如何在保证精确检测出建筑物变化的情况下提高其时间性能是下一步主要研究的内容.
作者简介
顾炼
浙江工商大学计算机与信息工程学院硕士研究生.主要研究方向为图像处理, 模式识别. E-mail: guliancv@163.com
许诗起
浙江工商大学计算机与信息工程学院硕士研究生.主要研究方向为数据挖掘, 深度学习. E-mail: xushiqitc@163.com
竺乐庆
浙江工商大学计算机与信息工程学院副教授.主要研究方向为图像处理, 模式识别, 视频处理.本文通信作者. E-mail: zhuleqing@zjgsu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 13:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社