IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于遗传乌燕鸥算法的同步优化特征选择

已有 2489 次阅读 2022-6-7 16:05 |系统分类:博客资讯

引用本文

贾鹤鸣, 李瑶, 孙康健. 基于遗传乌燕鸥算法的同步优化特征选择. 自动化学报, 2022, 48(6): 1601−1615 doi: 10.16383/j.aas.c200322

Jia He-Ming, Li Yao, Sun Kang-Jian. Simultaneous feature selection optimization based on hybrid sooty tern optimization algorithm and genetic algorithm. Acta Automatica Sinica, 2022, 48(6): 1601−1615 doi: 10.16383/j.aas.c200322

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200322?viewType=HTML


文章简介


关键词


乌燕鸥优化算法, 混合优化, 特征选择, 支持向量机, 数据分类


摘   要


针对传统支持向量机方法用于数据分类存在分类精度低的不足问题, 将支持向量机分类方法与特征选择同步结合, 并利用智能优化算法对算法参数进行优化研究. 首先将遗传算法(Genetic algorithm, GA)和乌燕鸥优化算法(Sooty tern optimization algorithm, STOA)进行混合, 先通过对平均适应度值进行评估, 当个体的适应度函数值小于平均值时采用遗传算法对其进行局部搜索的加强, 否则进行乌燕鸥本体优化过程, 同时将支持向量机内核函数和特征选择目标共同作为优化对象, 利用改进后的STOA-GA寻找最适应解, 获得所选的特征分类结果. 其次, 通过16组经典UCI数据集和实际乳腺癌数据集进行数据分类研究, 在最佳适应度值、所选特征个数、特异性、敏感性和算法耗时方面进行对比研究, 实验结果表明, 该算法可以更加准确地处理数据, 避免冗余特征干扰, 在数据挖掘领域具有更广阔的工程应用前景.


引   言


随着科技不断进步, 每个领域都会产生庞大而复杂的信息和数据, 为了处理如此繁杂的数据, 数据挖掘和机器学习相继出现. 在数据处理领域中, 数据分类是一项基本工作, 但是由于数据的庞大和复杂, 使得数据分类成为一项具有挑战的研究课题, 常见的数据分类方法有决策树法、朴素贝叶斯法、k-邻近值(k-nearest neighbor, KNN)和支持向量机(Support vector machine, SVM)等. 贾涛等提出了数据流决策树分类方法, 引入单分类和集成决策树模型有效地处理了概念漂移问题; 崔良中等选择了改进朴素贝叶斯算法来解决近来机器学习中的数据分类时间过长的问题; 王景文等选择KNN算法进行了数据预测和分类, 实现了对中医胃痛病的自动诊断, 对诊断病理起到了重要作用; 丁世涛等提出基于传统SVM的分类方法, 通过文本数据以标题为突破口实现快速分类, 提高了分类速度和分类精度. 上述论文着重研究了几种常见的数据分类方法的工程应用, 由于各类数据量庞大且冗杂导致数据分类领域面临较大的挑战, 因而许多学者将研究领域进一步推向如何更好更快地进行数据预处理, 将特征选择和分类方法结合从而提高分类准确度.


为了更好解决特征选择与分类方法结合的问题, 研究者们通过引入优化算法对SVM的内核参数寻优. Chapelle等提出了利用梯度下降法来选择SVM的参数, 为接下来对其参数进行优化的研究奠定了基础; 刘昌平等使用混沌优化的方法对SVM的参数进行优化, 得出最优解并增强了分类精度; 刘东平等通过对遗传算法的改进, 利用其交叉变异部分更好地对SVM内核参数进行优化, 达到了预期的实验效果; 王振武等将粒子群算法改进后应用到SVM参数优化上, 体现了融合优化与SVM方法结合的优越性; 石勇等提出非平行支持向量顺序回归模型, 能够更好地处理大规模数据. Yu等提出了双边跨域协同过滤的SVM分类方法, 通过集成内在用户和项目特征, 更好地在目标领域中构建分类的模型. 上述研究表明, 将优化算法融合至SVM中具有一定的效果, 但上述方法大多只是单一优化其内核参数并未从整体考虑数据相关性的问题.


因此, 近年来研究者也开始将特征选择与优化算法相结合, 提高精度并减少时间成本. Zhang等首次提出了多目标粒子群成本的特征选择方法, 告别了传统的单目标特征选择, 是一种极具竞争力的特征选择方法; 2017年, 文献[13]提出基于返回代价的二进制萤火虫的方法, 并将其应用到特征选择问题中, 有效地提高了分类精确度并减少了所选特征个数; 2018年, 张文杰等将遗传算法应用到大数据特征选择算法中, 提升了算法的搜索能力和获取特征的准确性; 2019年, 李炜等将改进的粒子群算法应用到特征选择当中, 有效地降低了学习算法的数据维度和计算成本; 同年, Jia等提出一种基于斑点鬣狗优化(Spotted hyena optimization, SHO)的特征选择算法, 该算法提高了特征选择精度同时解决了特征冗余的问题; Baliarsingh等也在2019年提出了基于帝企鹅优化算法(Emperor penguin optimization, EPO)应用在优化医疗数据的分类方法, 大大减少了数据繁杂难以处理的问题; 文献[18]提出了非负拉普拉斯嵌入引导子空间学习的无监督特征选择的方法, 由非负拉普拉斯嵌入生成高质量的伪类标签, 并利用伪类标签提供的判别信息, 发展局部结构保持的子空间学习来寻找最优特征子集. 受这些研究启发, 本文将有效的优化算法应用到特征选择当中, 筛选有效特征, 更好地分类实际工程中的数据.


从工程应用的角度出发, 为了进一步提高数据分类准确度, 应该考虑将SVM与特征选择相结合, 利用优化算法对二者同时优化. 齐子元等提出同步优化特征选择和SVM参数的方法, 克服了单独优化二者的缺陷, 但选用的优化方法过于陈旧, 因此性能有待于提升; 沈永良等则提出了将改进烟花算法应用到特征选择和SVM参数优化的方法, 但大多对低维数据进行改善, 对高维数据集的优势难以体现; Ibrahim等提出了基于蝗虫算法的同步优化方法, 但未对本身优化算法做出改进, 因此不能更加全面地应用到特征选择问题中.


由上述研究文献的分析可以看出, 选择合适的优化算法对SVM和特征选择进行同步优化是一个十分重要的研究问题, 而元启发式优化算法主要分为进化算法和群智能优化算法两类. 进化算法中以遗传算法(Genetic algorithm, GA)最为经典. 通过模仿自然界优胜劣汰的理念, 不断淘汰结果较差的解和有概率的交叉变异来更新最优解的位置; 群智能优化算法则是模拟行为聚集的种群觅食行为, 以粒子群优化算法(Particle swarm optimization, PSO)为代表, 它通过模仿鸟群飞行觅食的过程, 不断更新飞行速度和位置以搜索到最优解. 除此之外, 还有一些仿生算法也属于元启发式算法, 如鲸鱼优化算法, 该算法模仿座头鲸捕食过程, 利用独特的螺旋收敛方式模型不断靠近最优解. 上述几种典型的优化算法都能在一定程度上解决工程中最优解的求取问题, 但是由于工程问题的困难性和复杂性, 优化算法很难独立解决所有实际问题. 本文选择的乌燕鸥优化算法(Sooty tern optimization algorithm, STOA)也是如此, 虽然它具有较强的全局搜索能力和一定的收敛精度, 但根据没有免费的午餐定理可知, 没有任何一个优化算法可以独立解决所有实际问题, 单一优化算法优化能力尚有不足, 因此要想将优化算法更好地应用到实际问题上, 就必须对其进行二次优化和改进.


由于乌燕鸥算法已经具备良好的全局搜索能力, 所以对它的改进应当侧重于对其局部搜索能力的引导和改善. 遗传算法的主要特点是能够对结构对象进行直接操作、具有较好的并行性和局部优化能力, 同时它不需要特定的规则, 能够根据概率自适应地调整搜索方向, 因此近年来遗传算法在混合优化、机器学习、信号处理等领域得到了广泛的应用. 2019年, 唐晓娜等提出了混合粒子群优化遗传算法的混合方法, 用来对高分遥感影像进行预处理, 大大提高了其对城市用地信息的提取效果; 2020年, 卓雪雪等将蚁群算法和遗传算法结合并应用于求解旅行商问题中, 将遗传最主要的交叉部分引入到蚁群优化中, 解决了蚁群算法过早陷入局部最优解的问题, 并加快了算法的收敛速度. 由此可见遗传算法具有强大的局部搜索能力, 将它与其他局部搜索能力不足的算法融合, 便可以大大提高该类不足算法的收敛精度, 同时也可以更好地避免陷入局部最优的情况出现. 因此本文引入遗传算法, 解决了传统乌燕鸥算法局部搜索不足且容易陷入局部最优的问题.


综合上述分析可知, 本文主要创新研究工作如下: 首先, 本文根据平均适应度值概念提出遗传乌燕鸥算法, 相较于传统乌燕鸥优化算法, 具有更好的收敛能力和收敛速度; 其次, 基于本文遗传乌燕鸥算法, 将其和SVM及特征选择结合, 用STOA-GA同步优化SVM的C、ζ参数和二进制特征, 并且对经典UCI数据集进行测试, 解决了数据预处理中分类精度不高、冗余特征过多的问题, 可以有效完成数据分类工作; 最后, 将本文的特征选择模型应用到乳腺癌数据集中, 通过10次实验均入选的特征可以更好地辨别乳腺癌复发的主要因素, 为解决乳腺癌数据的预处理提供了理论依据, 使临床数据得到更妥善利用. 通过验证, 本文方法在数据预处理上确有较高的工程应用价值.


10.16383-j.aas.c200322-Figure5.jpg

图 5  各算法分类精度平均值


10.16383-j.aas.c200322-Figure6.jpg

图 6  各算法所选特征平均值


文章简介


贾鹤鸣

三明学院信息工程学院教授. 主要研究方向为智能优化与图像处理和非线性控制理论与应用. 本文通信作者.

E-mail: jiaheminglucky99@126.com


李   瑶

东北林业大学机电工程学院硕士研究生. 主要研究方向为智能优化与特征选择.

E-mail: liyao@nefu.edu.cn


孙康健

东北林业大学机电工程学院硕士研究生. 主要研究方向为智能优化与特征选择.

E-mail: sunkangjian@nefu.edu.cn


相关文章


[1]  于洪, 何德牛, 王国胤, 李劼, 谢永芳. 大数据智能决策. 自动化学报, 2020, 46(5): 878-896. doi: 10.16383/j.aas.c180861

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180861?viewType=HTML


[2]  石勇, 李佩佳, 汪华东. L2损失大规模线性非平行支持向量顺序回归模型. 自动化学报, 2019, 45(3): 505-517. doi: 10.16383/j.aas.2018.c170438

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170438?viewType=HTML


[3]  肖辉辉, 万常选, 段艳明, 谭黔林. 基于引力搜索机制的花朵授粉算法. 自动化学报, 2017, 43(4): 576-594. doi: 10.16383/j.aas.2017.c160146

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160146?viewType=HTML


[4]  马炫, 李星, 唐荣俊, 刘庆. 一种求解符号回归问题的粒子群优化算法. 自动化学报, 2020, 46(8): 1714−1726 doi: 10.16383/j.aas.c180035

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180035?viewType=HTML


[5]  孙亮, 韩崇昭, 沈建京, 戴宁. 集成特征选择的广义粗集方法与多分类器融合. 自动化学报, 2008, 34(3): 298-304. doi: 10.3724/SP.J.1004.2008.00298

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00298?viewType=HTML


[6]  孟琭, 杨旭. 目标跟踪算法综述. 自动化学报, 2019, 45(7): 1244-1260. doi: 10.16383/j.aas.c180277

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180277?viewType=HTML


[7]  陈龙, 刘全利, 王霖青, 赵珺, 王伟. 基于数据的流程工业生产过程指标预测方法综述. 自动化学报, 2017, 43(6): 944-954. doi: 10.16383/j.aas.2017.c170136

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c170136?viewType=HTML


[8]  南栋, 毕笃彦, 马时平, 凡遵林, 何林远. 基于分类学习的去雾后图像质量评价算法. 自动化学报, 2016, 42(2): 270-278. doi: 10.16383/j.aas.2016.c140854

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c140854?viewType=HTML


[9]  侯杰, 茅耀斌, 孙金生. 基于指数损失和0-1损失的在线Boosting算法. 自动化学报, 2014, 40(4): 635-642. doi: 10.3724/SP.J.1004.2014.00635

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00635?viewType=HTML


[10]  张凯军, 梁循. 一种改进的显性多核支持向量机. 自动化学报, 2014, 40(10): 2288-2294. doi: 10.3724/SP.J.1004.2014.02288

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02288?viewType=HTML


[11]  张景祥, 王士同, 邓赵红, 蒋亦樟, 李奕. 融合异构特征的子空间迁移学习算法. 自动化学报, 2014, 40(2): 236-246. doi: 10.3724/SP.J.1004.2014.00236

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00236?viewType=HTML


[12]  李娟, 王宇平. 考虑局部均值和类全局信息的快速近邻原型选择算法. 自动化学报, 2014, 40(6): 1116-1125. doi: 10.3724/SP.J.1004.2014.01116

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01116?viewType=HTML


[13]  陶剑文, 王士同. 领域适应核支持向量机. 自动化学报, 2012, 38(5): 797-811. doi: 10.3724/SP.J.1004.2012.00797

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00797?viewType=HTML


[14]  刘建伟, 李双成, 罗雄麟. p范数正则化支持向量机分类算法. 自动化学报, 2012, 38(1): 76-87. doi: 10.3724/SP.J.1004.2012.00076

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00076?viewType=HTML


[15]  张战成, 王士同, 钟富礼. 协作式整体和局部的分类机. 自动化学报, 2011, 37(10): 1256-1263. doi: 10.3724/SP.J.1004.2011.01256

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01256?viewType=HTML


[16]  丁晓剑, 赵银亮. 偏置b对支持向量机分类问题泛化性能的影响. 自动化学报, 2011, 37(9): 1105-1113. doi: 10.3724/SP.J.1004.2011.01105

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01105?viewType=HTML


[17]  徐丹蕾, 杜兰, 刘宏伟, 洪灵, 李彦兵. 一种基于变分相关向量机的特征选择和分类结合方法. 自动化学报, 2011, 37(8): 932-943. doi: 10.3724/SP.J.1004.2011.00932

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00932?viewType=HTML


[18]  刘峤, 秦志光, 陈伟, 张凤荔. 基于零范数特征选择的支持向量机模型. 自动化学报, 2011, 37(2): 252-256. doi: 10.3724/SP.J.1004.2011.00252

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00252?viewType=HTML


[19]  李钧涛, 贾英民. 用于微阵列分类的Huberized多类支持向量机. 自动化学报, 2010, 36(3): 399-405. doi: 10.3724/SP.J.1004/2010.00399

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004/2010.00399?viewType=HTML


[20]  易辉, 宋晓峰, 姜斌, 王定成. 基于结点优化的决策导向无环图支持向量机及其在故障诊断中的应用. 自动化学报, 2010, 36(3): 427-432. doi: 10.3724/SP.J.1004.2010.00427

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00427?viewType=HTML


[21]  崔潇潇, 王贵锦, 林行刚. 基于Adaboost权值更新以及K-L距离的特征选择算法. 自动化学报, 2009, 35(5): 462-468. doi: 10.3724/SP.J.1004.2009.00462

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00462?viewType=HTML


[22]  张学工. 关于统计学习理论与支持向量机. 自动化学报, 2000, 26(1): 32-42.

http://www.aas.net.cn/cn/article/id/14696?viewType=HTML


[23]  张鸿宾, 孙广煜. Tabu搜索在特征选择中的应用. 自动化学报, 1999, 25(4): 457-466.

http://www.aas.net.cn/cn/article/id/16707?viewType=HTML


[24]  章新华. 一种特征选择的动态规划方法. 自动化学报, 1998, 24(5): 675-680.

http://www.aas.net.cn/cn/article/id/16781?viewType=HTML


[25]  徐雷. 模拟退火组合优化法在模式识别中的若干应用. 自动化学报, 1989, 15(2): 114-121.

http://www.aas.net.cn/cn/article/id/14920?viewType=HTML




https://blog.sciencenet.cn/blog-3291369-1341965.html

上一篇:SealGAN: 基于生成式对抗网络的印章消除研究
下一篇:基于混合生成对抗网络的多视角图像生成算法
收藏 IP: 123.112.167.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-7 04:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部