|
引用本文
张永清, 卢荣钊, 乔少杰, 韩楠, Gutierrez Louis Alberto, 周激流. 一种基于样本空间的类别不平衡数据采样方法. 自动化学报, 2022, 48(10): 2549−2563 doi: 10.16383/j.aas.c200034
Zhang Yong-Qing, Lu Rong-Zhao, Qiao Shao-Jie, Han Nan, Gutierrez Louis Alberto, Zhou Ji-Liu. A sampling method of imbalanced data based on sample space. Acta Automatica Sinica, 2022, 48(10): 2549−2563 doi: 10.16383/j.aas.c200034
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200034
关键词
不平衡数据,样本空间,机器学习,采样方法,空间中心
摘要
不平衡数据是机器学习中普遍存在的问题并得到广泛研究, 即少数类的样本数量远远小于多数类样本的数量. 传统基于最小化错误率方法的不足在于: 分类结果会倾向于多数类, 造成少数类的精度降低, 通常还存在时间复杂度较高的问题. 为解决上述问题, 提出一种基于样本空间分布的数据采样方法, 伪负样本采样方法. 伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本. 算法主要包括3个关键步骤: 1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离; 2)以同样的距离计算方法计算每个负样本到空间分布中心的距离, 并与平均距离进行比较, 将其距离小于平均距离的负样本标记为伪负样本; 3)将伪负样本从负样本集中删除并加入到正样本集中. 算法的优势在于不改变原始数据集的数量, 因此不会引入噪声样本或导致潜在信息丢失; 在不降低整体分类精度的情况下, 提高少数类的精确度. 此外, 其时间复杂度较低. 经过13个数据进行多角度实验, 表明伪负样本采样方法具有较高的预测准确性.
文章导读
不平衡数据广泛存在于实际应用中, 如何有效处理类别不平衡数据已成为目前机器学习领域一个重要的研究热点. 许多生物信息学中的分类问题都面临不平衡数据的问题, 如基因表达数据[1]、蛋白质−DNA结合数据[2]、mRNA中的甲基化位点[3]、拼接位置预测[4]、microRNAs的预测[5]、蛋白质相互作用预测[6]等. 此外, 不平衡数据还广泛存在于医疗诊断[7−8]、诈骗交易[9]和网络入侵[10]等领域. 在数据不平衡问题中, 由于负样本(多数类)的数量远远大于正样本(少数类)的数量, 使得少数类样本难以被分类器有效学习. 此外, 现有的机器学习算法一般假定类分布均衡或样本错分代价相同. 然而, 真实应用中通常少数类样本比多数类本更为重要, 错分代价更高. 所以对不平衡数据的学习一般无法取得令人满意的结果.
现有方法一般通过数据预处理的方式来重构数据集, 以减少学习过程中样本偏态分布的负面影响, 重采样方法是其中经典的方法. 重采样主要分为欠采样和过采样, 使用欠采样算法可能会移除多数类中潜在的有用信息, 导致分类性能降低, 并且可能破坏样本原始分布. 过采样算法会增加样本量, 这会增加算法的时间成本, 也容易导致过拟合[11]. 此外, 新生成的样本不能保证与原数据有相同的分布. 大多数方法将数据采样到所有类别样本数量一致为止, 采样比例不仅取决于不平衡比例, 还取决于数据的空间分布情况. 因此重采样算法的一个难点在于如何确定采样比例, 即 如何合理地根据数据本身的特点确定具有最佳分类性能的采样比例.
基于上述问题, 亟需提出一种先进的数据采样方法来处理正负样本比例不平衡问题. 本文研究基于以下几点考虑:
1)在不平衡数据中, 负样本数量占据了绝大多数, 虽然负样本与正样本属于不同的类别, 但是在负样本中可能包括潜在的正样本, 这是之前的研究没有考虑的.
2)如何根据数据整体的空间分布特点, 自适应地确定采样比例.
3)基于混合采样方法能很好地避免单独使用欠采样和过采样带来的问题.
为解决上述问题, 本文提出了一种新的基于样本空间的不平衡数据采样方法, 伪负样本采样方法(Pseudo-negative sampling, PNS), 本文主要贡献有:
1)提出了伪负样本概念. 在大量的负样本中存在与正样本有类似分布的样本, 因此与正样本具有很高的相似度, 可以将它们定义为被错分了的正样本. 基于这一观察, 本文首次提出伪负样本概念, 将与正样本相似度很高的负样本标记为伪负样本.
2)根据数据空间分布, 提出一种度量正样本和负样本之间相似性的方法. 算法工作原理为: 使用欧氏距离评价样本之间的相似性, 首先计算正样本的空间中心, 然后将正样本到空间中心的平均距离作为判断是否为伪负样本的阈值, 最后分别计算每个负样本到空间中心的距离. 如果其距离小于阈值, 则将此负样本标记为伪负样本. 将其添加到正样本集中.
3)通过正负样本之间的相似距离, 自适应地确定不平衡数据采样的比例.
4)在多个UCI数据、KEEL数据和真实生物信息数据上进行了大量实验, 全面验证了算法的准确率、敏感性、特异性、马修斯相关系数(Matthews correlation coefficient, MCC)、F-score和时间效率等性能评价指标. 引入对比算法, 从多角度验证所提出方法的性能优势.
本文结构如下: 第1节综述主流的类不平衡数据解决方法; 第2节详细说明本文提出的PNS采样算法; 第3节介绍本文使用的数据集和算法评价指标; 第4节对本文提出的采样方法的实验结果进行分析; 第5节对本文工作进行总结和展望.
图 1 伪负样本采样方法
图 2 4个UCI数据集在SVM分类器下的ROC曲线
图 3 2个KEEL数据集在SVM分类器下的ROC曲线
本文提出了一种新型的基于样本空间的不平衡数据采样方法, 即伪负样本采样方法PNS. 实验结果显示, PNS采样方法普遍优于其他常用数据采样方法. 在不平衡数据集中由于存在大量负样本, 使有的负样本与正样本具有相似的分布, 与正样本具有很高相似度, 可以将其定义为被错分的正样本, 基于这一考虑本文提出了伪负样本的概念及其采样方法. 具体地, PNS使用欧几里得距离衡量正负样本间的相似性, 将得到的伪负样本从负样本中删除并加入到正样本中. 本文方法根据样本的空间分布自适应地对数据进行采样, 不需要指定采样比例, 具有较强的适应性, 避免了采样时选择采样比例的困难. 混合采样方法避免了单独使用一种采样方法带来的问题. 此外, 该算法还具有良好的时间复杂性, 采样与训练时间明显少于过采样方法. 因此, PNS采样方法为处理不平衡数据提供了一种可行的新思路.
未来工作包括: 1)将本文提出的伪负样本算法与聚类算法结合[41-43], 使用聚类方法获得数据集的更多分布信息, 这将有助于提高采样的精准性; 2)探索将现有的算法扩展到多分类的任务; 3)将算法应用于大规模数据集.
作者简介
张永清
成都信息工程大学计算机学院副教授. 2016年获四川大学计算机学院博士学位. 主要研究方向为人工智能和生物信息学.E-mail: zhangyq@cuit.edu.cn
卢荣钊:成都信息工程大学计算机学院硕士研究生. 主要研究方向为机器学习. E-mail: 15928652663@163.com
乔少杰
成都信息工程大学软件工程学院教授. 2009年获四川大学博士学位. 主要研究方向为轨迹预测, 移动对象数据库和机器学习. 本文通信作者. E-mail: sjqiao@cuit.edu.cn
韩楠
成都信息工程大学管理学院副教授. 2012年获成都中医药大学博士学位. 主要研究方向为数据挖掘和人工智能.E-mail: hannan@cuit.edu.cn
GUTIERREZ Louis Alberto:伦斯勒理工学院计算机科学系研究员. 主要研究方向为数据挖掘.E-mail: louisgutierrez2002@gmail.com
周激流
成都信息工程大学计算机学院教授. 主要研究方向为智能计算和图像处理.E-mail: zhoujl@cuit.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 11:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社