|
引用本文
李晶晶, 许建楼, 熊静, 张选德. 基于方向场正则化的线描画生成算法. 自动化学报, 2021, 47(3): 685−694 doi: 10.16383/j.aas.c190393
Li Jing-Jing, Xu Jian-Lou, Xiong Jing, Zhang Xuan-De. Line drawing generation algorithm based on direction field regularization. Acta Automatica Sinica, 2021, 47(3): 685−694 doi: 10.16383/j.aas.c190393
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190393
关键词
线描画,方向场,Tikhonov正则化,高斯差分滤波,感知阈值
摘要
图像风格转化在计算机视觉领域广受关注, 其研究目标在于将输入图像利用计算机转化为具有某种特定艺术风格的图像. 线描画作为一种古老的画种, 它通过简单的线条勾勒物体的轮廓, 具有简约、抽象的风格. 本文提出一种基于方向场正则化的线描画生成算法, 该算法由4部分构成: 1)采用非局部平均滤波对输入图像进行预处理; 2)计算输入图像的方向场, 并基于自表示的思想对方向场进行Tikhonov正则化, 为了提高运算速度, 采用Sherman-Morrison-Woodbury公式来对正则化算法进行加速; 3)以正则方向场作为引导, 对预处理图像作高斯差分滤波; 4)根据人类视觉系统的非线性特点, 设计感知阈值(Perceptual thresholding)算法来对高斯差分滤波的结果进行阈值处理, 得到二值化的线描画图像. 仿真实验表明, 该算法可将输入图像转化为线条流畅且能有效表达输入图像主要信息的线描画图像.
文章导读
一直以来, 人们对绘画作品比较感兴趣, 它反映、传播和塑造了人类的文化[1]. 艺术家们手工绘制铅笔画、卡通画、油画、水彩画等不同风格的作品, 需耗费大量的时间和精力, 几乎每一部经典作品都凝聚着艺术家的心血. 近年来, 利用算法对输入图像进行快速的风格转化引发了计算机视觉领域广泛的研究兴趣. 图像风格转化(Image style transfer, IST)算法可视作一个系统, 系统的输入是利用相机拍摄的自然图像(Photorealistic image), 输出是具有某种特定艺术风格的图像(Non-photorealistic image). IST在娱乐产业和消费电子中有着广泛的应用, 例如智能手机的图片编辑功能中通常提供多个风格转化选项; 在电影和游戏的制作过程中, 常采用IST算法来快速生成各种风格的场景.
过去几十年来, 计算机视觉领域对IST问题进行了广泛的研究. 1996年, Decaudin等[2]对卡通风格转化进行了明确的定义, 并研究了如何从静态或动态3D场景中生成卡通风格的2D图像或者视频. 2002年, DeCarlo等[3]利用眼动仪(Eye tracker)来记录当人观测一幅图像时的眼球运动数据, 并基于眼球运动数据和视觉感知模型来确定图像中的视觉显著元素(Meaningful elements), 然后基于图像的多尺度表示构造了一种风格转化算法, 风格化后的图像能保持并凸显原图像中的视觉显著元素. 2004年, Santella等[4]借助眼动仪来验证文献[3]中构造的算法是否达到了凸显视觉显著元素的目标. 2008年, Kyprianidis等[5]提出一种基于结构自适应滤波的图像风格转化算法. 该算法计算图像在每一像素点处的结构张量, 并以结构张量确定的梯度方向和切线方向作为引导, 实现对图像的局部自适应滤波. 2009年, Kang等[6]采用双边滤波对图像的切线场进行光滑, 并利用光滑切线场来引导风格转化算法. 2015年, Qian等[7]提出一种基于各向异性Kuwahara滤波和迭代线积分卷积的风格化方法, 其中Kuwahara滤波能较好地克服双边滤波及其均值漂移滤波器在边缘保持方面的局限性.
以上方法属于传统方法, 是研究者基于自己的知识或经验, 启发式地构造的风格转化算法, 这种算法不依赖于样本, 也无需进行训练. 近几年来, 随着深度学习方法的“横空出世”, 研究者们对深度学习方法在图像风格转化中的应用表现出非常强烈的兴趣[8-11]. 其中 Gatys等[8]采用预训练的、用于一般特征表示(Feature representation)的卷积神经网络 (Convolutional neural network, CNN)来分别处理自然图像的内容和风格, 提出一种基于纹理合成的图像风格转化算法. Johnson等[9]采用感知损失函数(Perceptual loss function)训练前馈网络来实现图像风格转化. Ulyanov等[10]首先训练紧凑的前馈卷积网络, 以生成任意大小且纹理相同的多个样本, 并将艺术风格从给定图像转移到任何其他图像. Elad 等[11]从字典学习、字典表示的角度拓展了Kwatra等[12]提出的纹理合成方法, 得到了具有与CNN类似效果的图像风格转化方法. 基于深度学习的方法能够获得非常好的风格转化效果, 但是深度学习方法依赖于样本进行训练, 运算代价较大.
本文采用传统方法研究图像风格的转化, 聚焦于“线描画”风格, 提出了一种基于方向场正则化的线描画生成算法(Direction field regularization based line drawing generation, DFR-LDG).该算法由以下几部分构成: 1)为了减轻噪声的影响, 采用非局部平均(Non-local means, NLM)滤波对输入图像进行预处理; 2)计算输入图像的方向场, 并对方向场进行Tikhonov正则化, 为了提高运算速度, 采用Sherman-Morrison-Woodbury公式来对正则化算法进行加速; 3)以正则方向场作为引导, 对预处理图像作高斯差分(Difference of Gaussian, DoG)滤波; 4)根据人类视觉系统(Human visual system, HVS)的非线性特点, 设计感知阈值(Perceptual thresholding) 算法来对高斯差分滤波的结果进行阈值处理, 得到二值的线描画图像. 数值实验表明, 提出的算法可将输入图像转化为线条流畅的线描画图像.
本文结构安排如下:第1节首先介绍线描画, 然后分析线描画与边缘检测的关系, 最后探讨边缘检测算子作为线描画生成算法的不足; 第2节详细介绍基于方向场正则化的线描画生成算法; 第3节进行数值实验; 第4节对本文工作进行总结.
图1 线描画图
图2 几种边缘检测算子采用的模板
图6 计算方向导数采用的模板
本文构造了一种基于方向场正则化的线描画生成算法, 该算法的显著特点体现在以下两个方面: 1)基于自表示的思想, 采用Tikhonov正则化方法对方向场进行正则化处理, 且对正则化算法进行了加速; 2)利用HVS的非线性特点设计感知阈值算法. 数据实验表明, 本文算法可从任意图像中提取相当美观的线描画. 本文的工作可从以下几个角度进行拓展: 1)如第2.3节中对RDF-DoG滤波的结果作进一步处理, 沿着边缘方向作平滑滤波, 有望改善提取的线描画的质量; 2)本文算法是对灰度图像设计的, 如何刻画彩色图像的边缘, 从彩色图像中提取线描画, 值得进一步研究; 3)将本文算法扩展到视频序列, 利用邻近帧的信息来优化算法的性能; 4)与其他风格转化问题一样, 线描画的风格转化可以利用深度学习方法实现, 当然, 这需要经过一定训练的志愿者根据给定自然图像绘制一定数量的线描画作为训练样本, 工作量很大; 5)严格来讲, 图像风格转化问题的构建不够明确. 图像的“风格”难以明确定义, 也难以准确量化, 这使得风格转化算法的处理效果只能采用主观评价. 如何客观地评价风格转化算法的性能同样是值得考虑的问题, 对算法性能评价问题的研究会使得风格转化问题的构建更加明确.
作者简介
李晶晶
陕西科技大学电子信息与人工智能学院硕士研究生. 2017年获得延安大学西安创新学院物联网工程专业学士学位. 主要研究方向为图像处理, 图像风格转化. E-mail: li_jing058@163.com
许建楼
河南科技大学数学与统计学院副教授. 2013年获得西安电子科技大学应用数学专业博士学位. 主要研究方向为图像处理变分方法, 稀疏优化. E-mail: xujianlou@126.com
熊静
陕西科技大学电子信息与人工智能学院讲师, 2016年获得西安电子科技大学计算机应用博士学位. 主要研究方向为视频图像处理, 运动目标检测与跟踪. E-mail: xiongjing@sust.edu.cn
张选德
陕西科技大学电子信息与人工智能学院教授. 2013年获得西安电子科技大学理学博士学位. 主要研究方向为图像恢复, 图像质量评价, 稀疏表示和低秩逼近理论. 本文通信作者. E-mail: zhangxuande@sust.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 23:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社