IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

鲁棒自适应概率加权主成分分析

已有 2176 次阅读 2022-8-31 16:24 |系统分类:博客资讯

引用本文

 

高云龙, 罗斯哲, 潘金艳, 陈柏华, 张逸松. 鲁棒自适应概率加权主成分分析.自动化学报, 2021, 47(4): 825-838 doi: 10.16383/j.aas.c180743

Gao Yun-Long, Luo Si-Zhe, Pan Jin-Yan, Chen Bai-Hua, Zhang Yi-Song. Robust PCA using adaptive probability weighting. Acta Automatica Sinica, 2021, 47(4): 825-838 doi: 10.16383/j.aas.c180743

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180743

 

关键词

 

主成分分析,加权主成分分析,维数约简,鲁棒性 

 

摘要

 

主成分分析(Principal component analysis, PCA) 是处理高维数据的重要方法. 近年来, 基于各种范数的PCA模型得到广泛研究, 用以提高PCA对噪声的鲁棒性. 但是这些算法一方面没有考虑重建误差和投影数据描述方差之间的关系; 另一方面也缺少确定样本点可靠性(不确定性)的度量机制. 针对这些问题, 本文提出一种新的鲁棒PCA模型. 首先采用L2,p模来度量重建误差和投影数据的描述方差. 基于重建误差和描述方差之间的关系建立自适应概率误差极小化模型, 据此计算主成分对于数据描述的不确定性, 进而提出了鲁棒自适应概率加权PCA模型(RPCA-PW). 此外, 本文还设计了对应的求解优化方案. 对人工数据集、UCI数据集和人脸数据库的实验结果表明, RPCA-PW在整体上优于其他PCA算法.

 

文章导读

 

随着技术的进步, 数据采集的效率逐渐提高, 使得数据的规模越来越大、复杂性越来越高. 在大多数情况下, 这些高维数据都存在着能够保留大部分有效信息的低维子空间, 如何移除高维空间中的噪声和无关信息, 提高后续学习算法的性能和效率一直是模式识别和机器学习领域的研究热点. 在过去的几十年中涌现出了许多优秀的算法, PCA[1]是其中最经典的方法之一, 它通过线性变换把数据投影到一个新的坐标空间中, 希望用较少的变量来表示原数据所提供的大部分信息. PCA逐渐发展为多种应用的预处理技术方法, 如图像识别、生物信息和数据挖掘[2-4]. 由于其用途广泛且原理简单, 研究者们陆续提出了各种改进的PCA算法. Koren[5]提出的WPCA使用了加权距离来减轻离群点对投影方向的影响, 突出了与主成分相关的特征; Schölkopf[6]通过非线性映射将原始数据映射到高维特征空间, 再执行kernel-PCA以提取特征; 李春娜等[7]极大化带有稀疏正则项的Lp模样本方差, 同时赋予算法鲁棒性和稀疏性.

 

衡量算法的优劣, 一个重要的指标就是鲁棒性, 尽管基于L2模的PCA能够解决许多问题, 但并不能有效地处理小样本问题中的离群点[8], 因为L2模的非线性变化特征会放大离群点所带来的影响, 使算法倾向于保留外围结构. 为了减轻异常点的负面影响, 目前已经提出了各种增强鲁棒性的解决方案L1模被认为是增强算法鲁棒性的有效手段之一. Ke[9]提出了L1-PCA算法, 通过极小化基于L1模的重建误差来提取主成分; Kwak[10]则在特征空间中极大化对应的L1模并利用贪婪算法求解模型; 在此基础上, Nie[11]提出了一种非贪婪迭代算法能够得到比贪婪算法更好的结果.

 

尽管基于L1模的PCA鲁棒性较强, 但是由于计算代价大, 而且不具有旋转不变性[12]. 因此, 大量具有旋转不变性的鲁棒PCA算法相继出现, 这些方法通过采用不同的准则函数或者优化算法来降低异常点对损失函数的影响, 以提高主成分分析过程中对于异常点的鲁棒性. He等在文献[13]中将PCA的均方误差(MSE)准则修改为最大熵(MaxEnt)准则来尽可能地保留数据的不确定性; 进而在文献[14]中提出HQ-PCA, 使用最大相对熵准则(MCC)代替MSE, 并采用半二次(Half-Quadratic)优化将原问题转换为一系列二次规划问题进行求解. HQ-PCA提高了算法对于噪声的鲁棒性, 同时保留了平移与旋转不变性; He等在文献[15]中基于数据的子空间属性, 分析了鲁棒低秩矩阵恢复方法和基于M估计的鲁棒主成分分析方法之间的联系, 提高主成分提取过程中对任意噪声的处理能力; Ding[16]使用旋转不变的R1模构造重建误差, 在一定程度上抑制了离群点的影响, 但是该方法依赖于投影空间中的维数; Nie[17]在此基础上提出了RPCA-OM, 计算了在R1范数下的最优均值并能够自动删除最优的数据均值; 受此启发, 许多鲁棒PCA采用L21模作为鲁棒降维的有效手段. Nie[18]基于L21范数最大化在理论上与重构误差最小化的关联性提出了PCA-L21, 并设计了一种有效的非贪婪优化算法来求解相关的最大化问题; Wang[19]L21模的距离度量扩展为L2,p, 可针对不同的数据选择适当的p以达到更好的效果; 但以上鲁棒PCA算法缺乏考虑重建误差和投影数据描述方差之间的关系, 在主成分提取的过程中容易造成判别信息的丢失. 对此, Wang[20]提出的Angle PCA方法通过最大化每个样本点的描述方差和重建误差之间的比率来确定主成分空间, 通过每个数据点与主成分方向的偏移角度进行加权, 但其权值的变化呈余切函数的快速非线性变化特征, 导致其过度强调局部特征, 所提取的主成分泛化性能弱.

 

基于此, 本文提出了鲁棒自适应概率加权主成分分析(RPCA-PW). RPCA-PW基于样本点的重建误差与描述方差在L2,p模下的变化关系确定每个样本点的可靠性程度. 其核心是选择主成分空间及其补空间作为参考, 通过分析样本点与这两个描述空间的相似度来确定主成分空间及其补空间对数据描述的不确定性, 结合交替迭代的优化算法, 从而能够在降维过程中自适应地降低噪声和异常样本点的影响. 本文提出的方法不仅对离群点具有鲁棒性, 并可针对不同数据集选择合适的p以达到更好的效果, 本文将在人工数据集、UCI数据集和人脸图像数据库上进行实验, 进而证明本文所提出算法的有效性.

 1  人工数据集上的鲁棒性实验

 2  p在不同取值下的目标函数取值变化曲线

 3  三种算法在双高斯人工数据集上的投影结果

 

本文提出了一种新的PCA模型, 称为鲁棒自适应概率加权PCA. RPCA-PW较经典PCA算法在鲁棒性上有了明显的改进, 具体表现在采用L2,p模降低离群点对于模型的影响, 并且基于投影空间中数据的结构信息与重建误差之间的关系, 在提取主成分的过程中加强对识别关键的样本点的影响, 削弱那些与识别过程关系不大或者冗余大的样本点来提高精度. 从而在计算过程中能够自动识别异常点样本, 有效地降低了样本中离群点的干扰, 这一点在实际应用中也有着一定的意义. 此外, 所提出的模型可作为广义公式, 几种现有的算法都能作为其特例. 在人工数据集、UCI数据集和人脸数据库上与其他PCA方法进行了对比实验, 结果表明本文提出的模型拥有更好的识别精度, 并且对噪声有显著高的鲁棒性.

 

作者简介

 

罗斯哲

厦门大学硕士研究生. 主要研究方向为机器学习与维数约简.E-mail: sizheluo@foxmail.com

潘金艳  集美大学副教授. 主要研究方向为最优化方法和数据挖掘.E-mail: jypan@jmu.edu.cn

 

陈柏华

厦门大学博士研究生. 主要研究方向为机器学习和数据降维.E-mail: chenbaihua001@163.com

 

张逸松

厦门大学硕士研究生. 主要研究方向为机器学习和数据聚类.E-mail: yisongzhang@foxmail.com

 

高云龙

厦门大学副教授. 2005年获得兰州大学计算机科学专业硕士学位. 2011年获得西安交通大学控制科学与工程专业博士学位. 主要研究方向为模式识别, 时间序列分析. 本文通信作者.E-mail: gaoyl@xmu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1353445.html

上一篇:基于跨模态深度度量学习的甲骨文字识别
下一篇:一种融合多源信息的脑效应连接网络蚁群学习算法
收藏 IP: 222.131.242.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-2 15:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部