|
引用本文
邱虹, 王万良, 郑建炜. 联合平滑矩阵多变量椭圆分布的稀疏表示算法. 自动化学报, 2019, 45(8): 1548-1563. doi: 10.16383/j.aas.2018.c170350
QIU Hong, WANG Wan-Liang, ZHENG Jian-Wei. Sparse Representation With Smoothed Matrix Multivariate Elliptical Distribution. ACTA AUTOMATICA SINICA, 2019, 45(8): 1548-1563. doi: 10.16383/j.aas.2018.c170350
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170350
关键词
稀疏表示,矩阵多变量椭圆分布,迭代加权最小二乘法,人脸重构和识别
摘要
处理部分光照和遮挡等噪声的图像重构及分类问题因其极具挑战而备受关注,该问题的解决很大程度上取决于对误差的描述,常见的方法以向量形式存储误差矩阵且假定其服从于独立同分布,忽视了图像数据的内部结构信息.针对该问题,本文提出一种联合平滑矩阵多变量椭圆分布的稀疏表示算法(Sparse representation with smoothed matrix multivariate elliptical distribution,SMED).该算法强调误差矩阵中各个像素间的依赖性并假定误差矩阵作为一个随机矩阵变量服从于矩阵多变量椭圆分布;之后,引入辅助变量光滑目标函数,使得模型易于获得全局最优解;最后,采用迭代加权最小二乘法优化求解模型.此外,文中对SMED算法的收敛性和复杂度进行了理论分析,并讨论了模型的参数敏感性.在AR、ExYaleB和PubFig三个公开数据集中的实验验证了所提算法具有鲁棒的鉴别力,且其综合性能明显优于经典算法.
文章导读
信号稀疏表示是过去近20年来信号处理方向一个非常引人关注的研究领域, 目的是在给定的超完备字典中用尽可能少的原子来表示信号, 从而获得信号更为简洁的表示方式, 方便进一步对信号进行压缩、编码等加工处理.随着压缩感知理论[1]提出在所求系数足够稀疏时, 最小化l0范数的NP难题[2]可以转化为最小化l1范数来进行求解, 稀疏表示已广泛应用于机器学习、计算机视觉、模式识别等领域.
在模式识别领域中, 具有代表性的是Wright等[3]提出的一种基于稀疏表示的分类器(Sparse representation-based classifier, SRC), 该分类器将稀疏表示成功应用于人脸识别, 有效解决了人脸图像中遮挡、光照等问题.其核心思想是通过选取完整的输入样本作为训练样本构造出超完备字典, 并由此得到测试样本的稀疏表示, 然后逐类构造出测试样本的近似线性表示, 最后寻找最小重构误差的类别标签作为测试样本的类别归属得以完成分类任务. Wright指出SRC对数据缺损不敏感, 当重构编码系数足够稀疏时, 特征空间的选取变得不再重要, 这些特点使得SRC成为一种优秀的分类算法, 且在图像分类研究中获得了成功应用.但是, 该算法仍然存在两个关键问题有待关注: 1)选择l1范数作为编码重构系数的稀疏约束是否是比较合适的策略; 2)选择Frobenius范数(F范数)作为线性重构表示的约束是否对图像表示足够有效.基于此, 众多科研工作者致力于这两个问题的研究.
Yang等[4]重新探究了l1范数在模式识别任务中的作用, 发现l1范数比l0范数能提供更多有意义的分类信息, 即l0范数只能实现稀疏, 而l1范数不仅能实现稀疏, 还能保持数据间的协作关系.对此, Zhang等[5]通过理论分析和实验验证解释了SRC分类器获得优秀分类性能的根本原因并非它的稀疏性, 而是数据间的协作关系, 并提出了协作表示分类器(Collaborative representation-based classifier, CRC).其中, CRC用l2范数替代SRC中的l1范数, 在不降低识别率的前提下大幅度提升了算法的运行效率.此外, 为了加快稀疏编码过程, 相继提出了许多基于加权l1或l2范数的算法[6-8].
上述算法均采用F范数作为线性重构表示的约束.诸多学者认为, 找到合适的方式来描述重构误差的特性有利于重构及分类性能的提升. Lu等[9]考虑到F范数对大规模异常点的处理较弱, 采用l1范数对误差重构进行评估, 实验表明l1范数比F范数对误差的评估更可靠. Naseem等[10]则利用Huber估计处理一些随机的光照和噪声像素将所提线性回归分类器(Linear regression classification, LRC)扩展为强健的线性回归分类器(Robust LRC, RLRC)[11], 提升了LRC在多光照及噪声下的鲁棒性. Yang等[12]采用M估计匹配一般的噪声, 提出了强健的稀疏编码算法(Robust sparse coding, RSC).随后, Yang等[13]从样本特征的概率分布形式出发, 对不同的特征添加贡献度因子, 提出正则化鲁棒编码算法(Regularized robust coding, RRC), 其具有更高的抗噪能力, 却丢失了样本的局部分布特性.而He等[14]利用相关熵对处理噪声和噪点的稳定性优势, 提出一种基于相关熵的稀疏表示算法(Correntropy-based sparse representation, CESR).随后, He等[15]又构建了半二次框架, 该框架结合两种现有的稀疏健壮回归模型:以SRC为代表的应对误差修复的相加模型和以CESR和RSC为代表的应对误差检测的相乘模型.通过分而治之的策略, He等[16]将健壮人脸识别的过程分解为异常值检测和人脸识别两个阶段, 使得稀疏表示适用于大规模数据库.
实际上, 以上算法均属于多元分析的范畴.众所周知, 多元分析是研究多个自变量与因变量相互关系的一组统计理论和方法.其应用的限制条件是, 各个因素每一水平的样本必须是独立的随机样本, 其重复观测的数据服从正态分布, 且各总体方差相等.总体来说, 上述这些算法均假设误差向量满足正态性或独立性, 但这并不适用于现实场景, 特别是在部分随机误差向量的分布呈现出重尾现象的情况下.对于这种情况, Kibria等[17]提出基于多元t误差的线性模型. Basu等[18]使用多元幂指数分布作为语音识别领域的重尾分布. Liu[19]则假定观测的数据是相互依赖的, 且将多元幂指数回归模型扩展为矩阵变量幂指数回归模型.这些研究意味着假定观测数据之间相互依赖且服从重尾分布对于描述一些实际观测具有现实意义.事实上, 人脸图像中例如光照、遮挡或表情等噪声数据之间高度相关, 并不完全服从于独立同分布.因此, 找到一种合适的针对矩阵变量的分布来描述误差矩阵的特征至关重要.
本文旨在解决部分遮挡和受光照影响的图像的重构及分类问题.传统方法往往将图像以向量的形式进行存储分类, 忽视了图像数据的内部结构信息, 且它们依据最大似然估计的观点假设噪声数据服从独立同分布对误差进行处理, 不适用于现实场景.本文所提模型强调误差矩阵中各个像素间的依赖性并假定该误差矩阵作为一个随机矩阵变量服从于矩阵多变量椭圆分布.同时, 假定模型中的编码重构系数服从拉普拉斯分布或高斯分布.由于通过假定所得的模型具有非光滑性, 不利于问题的优化求解, 本文引入辅助变量光滑模型, 随后采用迭代加权最小二乘法优化求解模型.至此, 本文得到一种新的稀疏表示算法, 称为联合平滑矩阵多变量椭圆分布的稀疏表示算法(Sparse representa- tion with smoothed matrix multivariate elliptical distribution, SMED).
本文后续结构安排如下.第1节介绍多变量分析的相关工作, 包括多元分布和矩阵多变量椭圆分布.第2节具体描述SMED算法的目标函数, 并给出模型优化求解的方案.第3节对SMED算法的收敛性以及复杂度进行分析.第4节选择代表性的人脸数据库验证SMED的实际重构和分类性能.最后, 第5节总结全文工作并给出后续展望.
图 3 不同光照影响及墨镜和围巾遮挡下的人脸重构性能对比
图 4 不同像素污损程度下的人脸识别率对比
图 5 不同遮挡程度下的人脸识别率对比
本文提出一种联合平滑矩阵多变量椭圆分布的稀疏表示算法, 该算法强调误差矩阵中各个像素间的依赖性并假定误差矩阵作为一个随机矩阵变量服从于矩阵多变量椭圆分布.由于通过上述假定构建的目标函数具有非光滑性, 不利于问题的优化求解, 故先引入辅助变量光滑模型, 而后采用迭代加权最小二乘法优化求解模型.此外, 文中对SMED算法的收敛性和复杂度进行了理论分析, 并讨论了模型的参数敏感性.以人脸数据为例, 采用AR、ExYaleB和PubFig数据库验证了所提算法的性能优于经典算法.综上所述, 本文的创新点包括: 1)采用矩阵多变量椭圆分布描述误差矩阵, 增强算法抗噪性; 2)引入辅助变量光滑模型, 易于获得全局最优解, 提升算法识别能力; 3)采用迭代加权最小二乘法优化求解模型, 加快算法收敛速度.
分析研究发现, 所提算法SMED虽然易于实现且性能卓越, 但运行效率上仍受到限制, 无法满足视频跟踪等在线应用系统的需求, 且其与目前最先进算法的识别率仍有一定差距, 后续工作有待进一步提升算法的识别精度.此外, SMED是否适用于更加复杂的噪声特征样本和遮挡环境, 且能否将该算法扩展应用于一般的现实噪声[46], 也是后续有待进一步研究探索的问题.
作者简介
邱虹
浙江万里学院大数据与软件工程学院讲师.主要研究方向为模式识别, 图像处理.E-mail:qianzhihe.17@163.com
郑建炜
浙江工业大学计算机科学与技术学院副教授.主要研究方向为机器学习, 模式识别.E-mail:zjw@zjut.edu.cn
王万良
浙江工业大学计算机科学与技术学院教授.主要研究方向为人工智能, 模式识别.本文通信作者.E-mail:zjutwwl@zjut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-30 12:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社