IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

一种改进的特征子集区分度评价准则

已有 2274 次阅读 2022-5-7 16:52 |系统分类:博客资讯

引用本文


谢娟英, 吴肇中, 郑清泉, 王明钊. 一种改进的特征子集区分度评价准则. 自动化学报, 2022, 48(5): 1292−1306 doi: 10.16383/j.aas.c200704

Xie Juan-Ying, Wu Zhao-Zhong, Zheng Qing-Quan, Wang Ming-Zhao. An improved criterion for evaluating the discernibility of a feature subset. Acta Automatica Sinica, 2022, 48(5): 1292−1306 doi: 10.16383/j.aas.c200704

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200704?viewType=HTML


文章简介


关键词


特征子集区分度, 特征选择, 离散系数, 极限学习机, 特征搜索策略


摘   要


针对特征子集区分度准则(Discernibility of feature subsets, DFS)没有考虑特征测量量纲对特征子集区分能力影响的缺陷, 引入离散系数, 提出GDFS (Generalized discernibility of feature subsets)特征子集区分度准则. 结合顺序前向、顺序后向、顺序前向浮动和顺序后向浮动4种搜索策略, 以极限学习机为分类器, 得到4种混合特征选择算法. UCI数据集与基因数据集的实验测试, 以及与DFS、Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMID-DWSFS、CFR和FSSC-SD的实验比较和统计重要度检测表明: 提出的GDFS优于DFS, 能选择到分类能力更好的特征子集.


引   言


大数据时代的数据不仅样本量剧增, 维数也日益剧增, 引发维数灾难, 增加计算复杂度, 而且冗余和不相关特征使得分类器性能较差, 给数据分析带来挑战. 因此, 特征选择及其评价成为一个研究热点.


特征选择旨在发现具有强分类能力且互不相关或尽可能互不相关的少量特征构成特征子集. 特征搜索策略包括完全搜索、随机搜索和启发式搜索3大类. 特征选择算法可分为: Filter, Wrapper, Embedded, Hybrid, 以及Ensemble几大类. Filter方法根据独立于分类器的特征重要性评价准则, 如卡方检验等来判断特征的分类能力, 选择分类性能强的特征构成特征子集. Filter方法独立于学习过程, 速度快, 但需要阈值作为停止准则, 且准确率较低. Wrapper方法依赖于分类器, 需要将训练样本分为训练子集和验证子集两部分, 特征选择则过程中, 以分类器在验证子集的性能判断相应特征子集的分类能力, 选择分类能力强的特征子集. 构建基于特征子集的分类模型, 以测试集对模型进行评价, 从而评价特征子集和相应特征选择算法的性能. Wrapper方法中, 特征选择过程中使用的学习算法完全是一个“黑匣子”. 因此, Wrapper方法依赖于学习过程, 准确率较高, 但计算量大, 且存在过适应风险. Embedded方法通过优化一个目标函数实现特征选择, 特征选择在优化目标函数过程中完成, 不需要将训练样本分成训练子集和验证子集, 但构造合适的优化目标函数困难. Hybrid方法集成Filter方法和Wrapper方法的优势, 采用Filter方法独立于分类器的准则度量特征分类能力大小, 以一定的启发式策略来搜索特征子集, 采用Wrapper方法的以分类器分类性能评价相应特征子集的分类能力. 因此, Hybrid方法得到广泛关注. Ensemble方法集成不同特征选择算法实现特征选择, 一般情况下具有较好性能, 能选择到分类能力较好的特征子集, 但需要训练多个不同分类器.


Relief算法是经典的Filter方法, 但只适用于二分类问题. Relief-F算法将Relief由二分类扩展到多分类问题. LVW (Las Vegas wrapper)算法在拉斯维加斯方法(Las Vegas method)框架下使用随机搜索策略实现特征选择. SVM-RFE (SVM-recursive feature elimination)基于SVM (Support vector machine)和后向剔除思想实现特征选择, 是经典的Embedded特征选择算法, 是为解决超高维基因选择问题提出的算法, 但若每次只剔除一个基因, 时间消耗将成为瓶颈. 为此, 作者Guyon指出, 对于超高维基因选择, 每次迭代, 可一次剔除上百个基因, 但她没有给出到底一次剔除多少个基因合适的理论依据和实践指导. mRMR (Max-relevance, min-redundancy)基于特征相关性, 旨在选择到分类能力强且冗余度最小的特征构成特征子集, 但不同的相关性度量可能会得到不同的结果. F-score是衡量特征在两类间分辨能力的有效准则. Xie等将F-score推广用于任意类分类问题, 并提出考虑特征测量量纲的改进F-score特征重要度评价准则D-score, 用于皮肤病诊断. 针对F-score和D-score仅考虑单个特征区分能力, 没有考虑特征联合贡献的问题, 谢等提出了考虑特征联合贡献的特征子集区分度衡量准则DFS (Discernibility of feature subsets), 从而获得分类能力更优的特征子集. LLE Score (Locally linear embedding score)算法通过局部线性嵌入, 实现非线性维约简, 进行肿瘤基因选择. AVC (Feature selection with AUC-based variable complementarity)算法通过最大化变量互补性实现特征选择. 最大化ROC曲线下面积的基因选择算法实现了非平衡基因数据的特征选择. 特征选择算法DRJMIM (Dynamic relevance and joint mutual information maximization)充分考虑特征相关性和特征相互依赖性, 采用动态相关性和最大化联合互信息实现特征选择. 基于邻域粗糙集的特征选择算法基于邻域熵的不确定性度量, 从基因表达数据集中选择差异表达基因实现癌症分类. 谢等对非平衡基因数据的差异表达基因选择进行了系统研究, 提出了16种针对非平衡基因数据的特征选择算法. Li等从数据视图角度对特征选择算法进行总结, 将特征选择算法分为基于相似度的方法、基于信息论的方法、基于稀疏学习的方法, 以及基于统计的方法4大类.


特征选择研究已引起研究者广泛关注, 是高维小样本癌症基因数据分析的首要步骤, 也是其他高维数据分析的基础. 然而, 现有特征选择算法对特征分类能力的评价, 多数仅考虑单个特征的分类贡献, 并忽略了特征测量量纲的影响, DFS准则考虑了特征的联合贡献, 但其没有考虑不同测量量纲对特征分类贡献的影响, 值域差异悬殊的特征, 相当于被赋予了差异悬殊的权重, 无法准确度量特征对分类的贡献量. 为此, 提出GDFS (Generalized discernibility of feature subsets)新准则, 引入离散系数对DFS准则进行改进, 客观度量特征子集的分类能力. 以ELM (Extreme learning machine)为分类工具评估特征子集的分类性能. UCI (University of California in Irvine)机器学习数据库数据集和基因数据集的实验测试, 以及与DFS和现有经典特征选择算法的实验比较与统计显著性检测表明, 提出的GDFS特征子集区分度评价准则是一种有效的特征子集分类能力度量准则, 能选择到分类性能很好的特征子集.


10.16383-j.aas.c200704-Figure2.jpg

图 2  DFS+SBS算法的5-折交叉验证实验结果


10.16383-j.aas.c200704-Figure3.jpg

图 3  DFS+SFFS算法的5-折交叉验证实验结果


10.16383-j.aas.c200704-Figure4.jpg

图 4  DFS+SBFS算法的5-折交叉验证实验结果


作者简介


谢娟英

陕西师范大学计算机科学学院教授. 主要研究方向为机器学习, 数据挖掘, 生物医学大数据分析. 本文通信作者.

E-mail: xiejuany@snnu.edu.cn


吴肇中

陕西师范大学计算机科学学院硕士研究生. 主要研究方向为机器学习, 生物医学数据分析.

E-mail: wzz@snnu.edu.cn


郑清泉

陕西师范大学计算机科学学院硕士研究生. 主要研究方向为数据挖掘, 生物医学数据分析.

E-mail: zhengqingqsnnu@163.com


王明钊

陕西师范大学生命科学学院博士研究生. 2017 年获得陕西师范大学计算机科学学院硕士学位. 主要研究方向为生物信息学.

E-mail: wangmz2017@snnu.edu.cn


相关文章


[1]  刘卓, 汤健, 柴天佑, 余文. 基于多模态特征子集选择性集成建模的磨机负荷参数预测方法. 自动化学报, 2021, 47(8): 1921-1931. doi: 10.16383/j.aas.c190735

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190735?viewType=HTML


[2]  张万栋, 李庆忠, 黎明, 武庆明. 基于最优误差自校正极限学习机的高频地波雷达RD谱图海面目标检测算法. 自动化学报, 2021, 47(1): 108-120. doi: 10.16383/j.aas.c180210

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180210?viewType=HTML


[3]  贾鹤鸣, 李瑶, 孙康健. 基于遗传乌燕鸥算法的同步优化特征选择. 自动化学报. doi: 10.16383/j.aas.c200322

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200322?viewType=HTML


[4]  陈晓云, 廖梦真. 基于稀疏和近邻保持的极限学习机降维. 自动化学报, 2019, 45(2): 325-333. doi: 10.16383/j.aas.2018.c170216

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170216?viewType=HTML


[5]  徐德. 单目视觉伺服研究综述. 自动化学报, 2018, 44(10): 1729-1746. doi: 10.16383/j.aas.2018.c170715

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170715?viewType=HTML


[6]  许夙晖, 慕晓冬, 柴栋, 罗畅. 基于极限学习机参数迁移的域适应算法. 自动化学报, 2018, 44(2): 311-317. doi: 10.16383/j.aas.2018.c160818

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160818?viewType=HTML


[7]  孙广路, 宋智超, 刘金来, 朱素霞, 何勇军. 基于最大信息系数和近似马尔科夫毯的特征选择方法. 自动化学报, 2017, 43(5): 795-805. doi: 10.16383/j.aas.2017.c150851

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150851?viewType=HTML


[8]  徐嘉明, 张卫强, 杨登舟, 刘加, 夏善红. 基于流形正则化极限学习机的语种识别系统. 自动化学报, 2015, 41(9): 1680-1685. doi: 10.16383/j.aas.2015.c140916

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140916?viewType=HTML


[9]  周全, 王磊, 周亮, 郑宝玉. 基于多尺度上下文的图像标注算法. 自动化学报, 2014, 40(12): 2944-2949. doi: 10.3724/SP.J.1004.2014.02944

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02944?viewType=HTML


[10]  侯杰, 茅耀斌, 孙金生. 基于指数损失和0-1损失的在线Boosting算法. 自动化学报, 2014, 40(4): 635-642. doi: 10.3724/SP.J.1004.2014.00635

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00635?viewType=HTML


[11]  冯定成, 陈峰, 徐文立. 一种基于局部流形结构的无监督特征学习方法. 自动化学报, 2014, 40(10): 2253-2261. doi: 10.3724/SP.J.1004.2014.02253

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02253?viewType=HTML


[12]  桂卫华, 阳春华, 徐德刚, 卢明, 谢永芳. 基于机器视觉的矿物浮选过程监控技术研究进展. 自动化学报, 2013, 39(11): 1879-1888. doi: 10.3724/SP.J.1004.2013.01879

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.01879?viewType=HTML


[13]  刘建伟, 李双成, 罗雄麟. p范数正则化支持向量机分类算法. 自动化学报, 2012, 38(1): 76-87. doi: 10.3724/SP.J.1004.2012.00076

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00076?viewType=HTML


[14]  徐丹蕾, 杜兰, 刘宏伟, 洪灵, 李彦兵. 一种基于变分相关向量机的特征选择和分类结合方法. 自动化学报, 2011, 37(8): 932-943. doi: 10.3724/SP.J.1004.2011.00932

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00932?viewType=HTML


[15]  刘峤, 秦志光, 陈伟, 张凤荔. 基于零范数特征选择的支持向量机模型. 自动化学报, 2011, 37(2): 252-256. doi: 10.3724/SP.J.1004.2011.00252

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00252?viewType=HTML


[16]  崔潇潇, 王贵锦, 林行刚. 基于Adaboost权值更新以及K-L距离的特征选择算法. 自动化学报, 2009, 35(5): 462-468. doi: 10.3724/SP.J.1004.2009.00462

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00462?viewType=HTML


[17]  曹媛媛, 杨波, 徐光祐. 基于分形纹理特征和小波变换的网状纹理检测方法. 自动化学报, 2007, 33(7): 688-692. doi: 10.1360/aas-007-0688

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0688?viewType=HTML


[18]  张鸿宾, 孙广煜. Tabu搜索在特征选择中的应用. 自动化学报, 1999, 25(4): 457-466.

http://www.aas.net.cn/cn/article/id/16707?viewType=HTML


[19]  章新华. 一种特征选择的动态规划方法. 自动化学报, 1998, 24(5): 675-680.

http://www.aas.net.cn/cn/article/id/16781?viewType=HTML


[20]  徐雷. 模拟退火组合优化法在模式识别中的若干应用. 自动化学报, 1989, 15(2): 114-121.

http://www.aas.net.cn/cn/article/id/14920?viewType=HTML




https://blog.sciencenet.cn/blog-3291369-1337481.html

上一篇:基于多阶段注意力机制的多种导航传感器故障识别研究
下一篇:深海起重机系统的实时轨迹规划方法
收藏 IP: 159.226.180.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-7 02:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部