IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

用于不平衡数据分类的0阶TSK型模糊系统

已有 499 次阅读 2024-6-23 17:07 |系统分类:博客资讯

引用本文

 

顾晓清, 蒋亦樟, 王士同. 用于不平衡数据分类的0TSK型模糊系统. 自动化学报, 2017, 43(10): 1773-1788. doi: 10.16383/j.aas.2017.c160200

GU Xiao-Qing, JIANG Yi-Zhang, WANG Shi-Tong. Zero-order TSK-type Fuzzy System for Imbalanced Data Classification. ACTA AUTOMATICA SINICA, 2017, 43(10): 1773-1788. doi: 10.16383/j.aas.2017.c160200

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160200

 

关键词

 

不平衡数据,分类,马尔科夫蒙特卡洛,Takagi-Sugeno-Kang型模糊系统 

 

摘要

 

处理不平衡数据分类时,传统模糊系统对少数类样本识别率较低.针对这一问题,首先,在前件参数学习上,提出了竞争贝叶斯模糊聚类(Bayesian fuzzy clustering based on competitive learningBFCCL)算法,BFCCL算法考虑不同类别样本聚类中心间的排斥作用,采用交替迭代的执行方式并通过马尔科夫蒙特卡洛方法获得模型参数最优解.其次,在后件参数学习上,基于大间隔的策略并通过参数调节使得少数类到分类面的距离大于多数类到分类面的距离,该方法能有效纠正分类面的偏移.基于上述思想以0TSK型模糊系统为具体研究对象构造了适用于不平衡数据分类问题的0TSK型模糊系统(0-TSK-IDC.人工和真实医学数据集实验结果表明,0-TSK-IDC在不平衡数据分类问题中对少数类和多数类均具有较高的识别率,且具有良好的鲁棒性和可解释性.

 

文章导读

 

模糊系统是对处理生产和实践过程中的思维、分析、推理与决策等过程构建的一种数学模型, 能够将自然语言直接转译成计算机语言.由于具备不确定和模糊信息的处理能力, 并具有高度的可解释性和强大的学习能力, 模糊系统在分类问题上受到广泛关注, 应用领域有信号处理, 医疗诊断等[1-7]方面.模糊系统的参数学习一般可由专家经验人为赋值或基于相关数据的学习来获得, 但很多情况下专家经验并不存在或不完备, 而后一种方法因其强大的学习能力在实践中更具可行性.在现实生活中, 不平衡数据的分类问题应用广泛, 例如, 医疗诊断应用中, 绝大部分对象都是正常人群, 只有很少一部分是疾病患者; 入侵检测和钓鱼网站识别应用中, 异常样本通常只占所有样本非常小的比例.然而, 在许多实际应用中, 与多数类样本相比, 少数类样本的有效识别更具有意义, 也往往是研究者关注的重点对象.

 

确定所需规则数和规则空间的划分以及确定模糊规则的后件参数是模糊系统建模的两大关键技术[8].对于第一项, 传统模糊系统构建分类器时常采用聚类的方法, 一种是不考虑样本的标签信息, 在整个数据集上进行聚类; 另一种是在每一个类别的样本中独立进行聚类, 然后再将各聚类结果进行整合.但是, 这两种方法在处理不平衡数据分类问题时存在以下不足:前者由于没有利用样本的类别标签信息, 往往会因为少数类样本的数量稀少而把少数类样本视为异常点或噪声; 后者仅是简单地将各类别样本割裂开来, 两类样本重叠区域会出现聚类中心间距过小或中心点重叠的现象.对于模糊规则的后件参数学习, 传统模糊系统一般遵循模型误差最小化的原则, 如文献[9]中的递推最小二乘法, 文献[10]中的不对称最小二乘法, 这类方法在处理样本容量平衡的分类问题时具有较高精度.但是在处理不平衡数据的分类问题时, 这类模糊系统往往倾向于追求多数类样本的高识别率来达到整体样本分类误差的最小化, 在这种情况下, 分类面不可避免地会向少数类样本发生偏移, 少数类样本的识别就存在较高的误判率[11].因此, 研究模糊系统在不平衡数据分类上的应用是有必要的和值得关注的.

 

目前针对不平衡数据的分类问题, 在模糊系统领域一般通过过采样或欠采样技术来调整正负类样本的比例, 如文献[12-13]采用过采样技术给模糊规则设置不同权重来提高少数类样本的分类精度; 文献[14-15]先定位样本点的分布然后抽取不同类别的代表点实现类别间数据的平衡.文献[16]提出了过采样和欠采样的结合方法来处理不平衡数据的分类问题.但是这类算法的缺点是会改变样本的原始分布结构, 采取精确复制少数类样本的策略容易造成分类器的过拟合, 而采取欠抽样多类样本的策略容易丢失部分样本信息.另外, 由于代价敏感学习[17-18]关注错分样本的代价, 其相关算法也常用来解决不平衡数据的学习问题.

 

针对上述模糊系统在不平衡数据分类中前/后件参数学习的不足, 本文提出了一种适用于不平衡数据分类的0TSK型模糊系统(Zero-Order-Takagi-Sugeno-Kang fuzzy system for imbalanced data classification, 0-TSK-IDC), 能在较好地处理不平衡数据分类的同时, 保证所得规则的可解释性.鉴于0TSK型模糊系统具有简单性和可解释性等优点[19], 本文将其作为研究对象. 0-TSK-IDC在不改变原有样本分布结构的基础上, 从模糊规则的前件参数学习和后件参数学习两个方面进行研究, 首先, 在模糊规则前件参数的学习上, 受文献[20]使用惩罚对手的竞争学习来加速聚类收敛性和文献[21]防止聚类中心重合而最大化聚类中心间距的启发, 本文认为在样本的类别标签已知的情况下, 不同类别样本的聚类中心在学习过程中会产生了一种"竞争"关系, 即聚类中心受同类别样本的吸引向该类别的数据密集区域"靠近", 同时也受到其他类别样本的"排斥"而被推离异类数据.本文将这一思想融入贝叶斯聚类(Bayesian fuzzy clustering, BFC)[22]模型中, 提出了一种新的竞争贝叶斯模糊聚类(Bayesian fuzzy clustering based on competitive learning, BFCCL). BFCCL在聚类过程中考虑样本的结构信息和不同类别聚类中心之间的排斥作用, 采用不同类别样本交替优化的策略, 并通过马尔科夫蒙特卡洛方法实现整个数据集的模糊划分. BFCCL的优点在于能够在类别不平衡的空间划分中表现出准确性, 有利于后件参数的学习, 同时能有效增强所得模糊规则的可解释性.

 

其次, 本文设计的模糊规则后件参数学习的策略是在遵循分类面"大间隔"的同时考虑纠正分类面的偏移, 使少数类样本到分类面的距离大于多数类样本到分类面的距离.该策略在目标函数的设计中同时考虑了结构风险和经验风险, 其训练过程可转化为二次规划问题求解, 保证结果的全局最优解, 从而0-TSK-IDC模糊系统具有较高的泛化性和鲁棒性.

 

本文结构如下:1节回顾了相关工作, 包括TSK型模糊系统和BFC算法的相关概念及原理; 在此基础上第2节提出了BFCCL算法; 3节提出了用于不平衡数据分类的0-TSK-IDC模糊系统; 4节通过在人工数据集和4个不平衡医学诊断数据集上的实验说明了BFCCL0-TSK-IDC的有效性; 5节总结全文.

 1  BFCCL聚类的构造原理示意图

 2  BFCCL参数学习示意图

 3  0-TSK-IDC分类面示意图

 

本文提出的0-TSK-IDC模糊系统利用BFCCL算法进行模糊规则前件参数的学习, 使基于聚类中心竞争机制和概率模型的聚类算法在类别不平衡的空间划分中表现出了清晰性和可解释性; 0-TSK-IDC模糊系统在模糊规则后件参数的学习中, 使用了"大间隔"的机制并设置少数类到分类面的距离大于多数类到分类面的距离, 从而使得0-TSK-IDC具有较强的泛化能力.本文的主要贡献可以归纳为: 1) 建立一种利用概率模型改进模糊系统的框架; 2) 提出了一种利用聚类模糊系统解决不平衡分类问题的方法.另外, 0-TSK-IDC模糊系统亦可处理类别平衡的分类问题, 只要设置式(23) (24) 中参数v0即可.对于多分类问题, 0-TSK-IDC可以采用类似于SVM方法, 用类别组合的方式来实现.应当指出, 本文对0-TSK-IDC模糊系统能否有效解决大样本等问题没有进行深入探讨, 当样本容量极大时, 若从聚类速度和二次规划求解角度而言, 0-TSK-IDC仍面临进一步提高实用性的挑战, 这将作为我们近期的研究重点.

 

作者简介

 

蒋亦樟

江南大学数字媒体学院讲师.2016年获得江南大学数字媒体学院博士学位.主要研究方向为人工智能, 模式识别, 模糊系统.E-mail:s101914015@vip.jiangnan.edu.cn

 

王士同  

江南大学数字媒体学院教授.主要研究方向为人工智能, 神经网络, 模式识别.E-mail:wxwangst@aliyun.com

 

顾晓清  

常州大学信息科学与工程学院讲师.江南大学数字媒体学院博士研究生.主要研究方向为模式识别, 机器学习.本文通信作者.E-mail:czxqgu@163.com



https://blog.sciencenet.cn/blog-3291369-1439402.html

上一篇:一种基于改进地貌形状上下文的形状匹配方法
下一篇:单通道脑电信号眼电伪迹去除算法研究
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-25 21:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部