IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于相对离群因子的标签噪声过滤方法

已有 740 次阅读 2024-2-7 17:00 |系统分类:博客资讯

引用本文

 

侯森寓, 姜高霞, 王文剑. 基于相对离群因子的标签噪声过滤方法. 自动化学报, 2024, 50(1): 154168 doi: 10.16383/j.aas.c230117

Hou Sen-Yu, Jiang Gao-Xia, Wang Wen-Jian. A label noise filtering method based on relative outlier factor. Acta Automatica Sinica, 2024, 50(1): 154168 doi: 10.16383/j.aas.c230117

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230117

 

关键词

 

分类,标签噪声,离群点检测,相对离群因子,噪声过滤 

 

摘要

 

分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题, 目前还缺少针对性方法来专门检测类别型标签噪声. 离群点检测技术能用于噪声的识别与过滤, 但由于离群点与类别型标签噪声并不具有一致性, 使得离群点检测算法无法精确检测分类数据集中的标签噪声. 针对这些问题, 提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法 —— 基于相对离群因子(Relative outlier factor, ROF)的集成过滤方法(Label noise ensemble filtering method based on relative outlier factor, EROF). 首先, 通过相对离群因子对样本进行噪声概率估计; 然后, 再迭代联合多种离群点检测算法, 实现集成过滤. 实验结果表明, 该方法在大多数含有标签噪声的数据集上, 都能保持优秀的噪声识别能力, 并显著提升各种分类模型的泛化能力.

 

文章导读

 

分类是机器学习领域中一项重要的任务, 大量研究表明, 数据质量决定着训练出的分类模型的泛化性能[1]. 随着人工智能技术的进步, 风险与挑战也随之而来, 许多人工智能应用领域(如医学诊断、人脸识别和智能驾驶等)需要更高的数据质量, 以保证模型的准确率(Accuracy, Acc)[2-4]. 然而, 由于对数据实施可靠标记通常是昂贵而耗时的, 对于实际的机器学习来说, 数据普遍包含噪声是一个不容忽视的问题[5]. 因此, 实施噪声清除或降低噪声对模型泛化性能的影响是十分必要的.

 

监督学习中的数据噪声主要分为特征噪声和标签噪声两种类型[6]. 特征噪声是指观测到的特征与真实特征存在误差的数据, 例如由于物联网设备故障, 部分数据采集到错误、缺失或不完整的特征值[7]; 标签噪声是指观测到的实例标签与真实标签不一致的数据, 例如在医疗诊断中, 由于专家标记的不一致性, 造成病例数据标签错误[8]. 文献[9]从统计角度考量, 提出标签噪声主要有完全随机噪声、随机噪声和非随机噪声三类. 它们通过噪声样本与其特征和标签的关联性进行区分, 完全随机噪声的产生独立于数据样本的特征值和标签类别; 随机噪声和非随机噪声的产生与数据的特征或标签类别之间存在一定的关联性, 这种关联可能是由于标签分配过程中的系统性、主观性错误或模糊类别边界等原因造成的.

 

根据机器学习任务的不同, 标签噪声在分类与回归任务中, 又分别称为类别型标签噪声和数值型标签噪声[9]. 在分类任务中, 无论是特征噪声还是类别型标签噪声都会影响模型的泛化性能, 但研究表明, 标签噪声比特征噪声具有更大的危害性. 一方面, 数据通常具有多个特征, 而标签是唯一的; 另一方面, 每个特征对于分类模型学习的重要性不尽相同, 而标签的正确与否对模型学习有着更大的影响. 因此, 处理分类任务中的标签噪声问题显得至关重要.

 

解决分类任务中的标签噪声问题可以从算法层和数据层2个层面考虑. 在算法层面的处理依赖于构建对标签噪声具有鲁棒性的模型(如重构损失函数和加权集成等方式), 通过提高模型对噪声的容忍, 以减少其受标签噪声的影响. 但是, 鲁棒模型并不能完全鲁棒[10]. 数据层面的处理是通过标签噪声过滤的方法提高数据质量[11], 标签噪声在训练前就已经被识别并处理掉. 显然, 标签噪声过滤更直接有效.

 

针对分类任务中的类别型标签噪声问题, 本文从离群点与噪声的相关性出发, 提出相对离群因子(Relative outlier factor, ROF), 以评估数据的噪声概率, 并据此构建标签噪声过滤方法. 本文主要贡献有以下3个方面:

1)基于离群点检测算法提出相对离群因子, 它可以对数据每个样本点进行噪声概率评估, 依据该评估, 可以实现噪声检测和初步的过滤;

2)以提高模型泛化能力为目标, 根据1)提出的噪声概率评估方法, 设计基于相对离群因子的集成过滤方法(Label noise ensemble filtering method based on relative outlier factor, EROF), 使得噪声过滤更加稳定精确;

3)在标准数据集的实验结果表明, 本文方法与现有的噪声过滤方法相比, 能更有效地提升数据质量和模型的泛化性能.

 1  不同含噪情况下的分类模型决策边界

 2  样本A的同质、异质样本

 3  噪声样本A与真实样本G的绝对离群因子

 

本文提出基于相对离群因子的集成过滤方法, 利用基离群点检测算法, 为样本提供标签噪声的概率评估, 再依据此评估实现迭代集成过滤. 与现有算法相比, 该算法以提升分类准确率为最终目的, 在保证数据信息尽量不丢失的同时, 能更精确地过滤掉对分类模型影响较大的噪声样本; 并且该算法通过集成多种互补的离群点检测算法, 保证了其优秀的鲁棒性. 在不同噪声比例和类型下, 该算法均表现出良好的过滤效果和对分类模型的提升能力. 为解决分类任务中的类别型标签噪声过滤问题, 提供一种新的思路.

 

由于过滤比率r和基离群点检测模型对本文算法的过滤效果有一定影响, 因此如何自适应设置过滤比率r和选择用于集成的基离群点检测模型, 还有待进一步研究. 此外, 离群点检测算法针对数值型标签噪声问题同样有效, 基于离群点检测算法的相关噪声学习方法在数值型标签噪声过滤和回归模型优化问题上的应用, 值得持续关注与探索.

 

作者简介

 

侯森寓

山西大学计算机与信息技术学院硕士研究生. 主要研究方向为机器学习, 标签噪声. E-mail: housenyu@163.com

 

姜高霞

山西大学计算机与信息技术学院副教授. 主要研究方向为机器学习, 数据挖掘. E-mail: jianggaoxia@sxu.edu.cn

 

王文剑

山西大学计算机与信息技术学院教授. 主要研究方向为机器学习, 数据挖掘. 本文通信作者. E-mail: wjwang@sxu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1420966.html

上一篇:基于优先采样模型的离线强化学习
下一篇:基于PCA和ICA模式融合的非高斯特征检测识别
收藏 IP: 222.131.245.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-29 21:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部