|
引用本文
李艳红, 任霖, 王素格, 李德玉. 非平衡数据流在线主动学习方法. 自动化学报, 2024, 50(7): 1389−1401 doi: 10.16383/j.aas.c211246
Li Yan-Hong, Ren Lin, Wang Su-Ge, Li De-Yu. Online active learning method for imbalanced data stream. Acta Automatica Sinica, 2024, 50(7): 1389−1401 doi: 10.16383/j.aas.c211246
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c211246
关键词
主动学习,数据流分类,多类非平衡,概念漂移
摘要
数据流分类是数据流挖掘领域一项重要研究任务, 目标是从不断变化的海量数据中捕获变化的类结构. 目前, 几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题. 基于此, 提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream, OALM-IDS). AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法, AdaBoost.M2引入了弱分类器的置信度, 此类方法常用于静态数据. 定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量, 从而使AdaBoost.M2方法适用于非平衡数据流, 提升了非平衡数据流集成分类器的性能. 提出了边际阈值矩阵的自适应调整方法, 优化了标签请求策略. 将概念漂移程度融入模型构建过程中, 定义了基于概念漂移指数的自适应遗忘因子, 实现了漂移后的模型重构. 在6个人工数据流和4个真实数据流上的对比实验表明, 提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.
文章导读
随着信息行业的高速发展, 大量数据以数据流的形式呈现, 如超市交易记录、网络搜索请求、电信呼叫记录和传感器网络数据等[1]. 在这些数据流中, 有许多需要处理的重要信息. 因此, 从这些海量数据流中发现和挖掘有价值信息已成为一项重要且艰巨的任务[2]. 与传统数据相比, 数据流具有实时性、连续性、时序性、变化性和无限性等特点. 因此, 数据流分类问题更为复杂[3].
数据流通常可以分为静态数据流和动态数据流, 静态数据流以固定数据分布形式出现, 动态数据流数据分布会随着时间变化而变化[4]. 不同数据分布称为不同概念, 这种概念的变化称为概念漂移[5]. 概念漂移将导致之前训练好的分类模型不再适用于目前数据流环境, 从而严重影响数据流分类的准确率. 同时, 在数据流中, 还会存在一些异常点, 这些异常点的出现会导致分类模型的决策边界受到影响. 因此, 数据流分类模型中概念漂移和异常点的处理成为数据流分类研究的重要内容.
非平衡数据流分类研究包括二类非平衡分类(即存在一个多数类和一个少数类)和多类非平衡分类[6]. 目前, 多数研究工作只关注二类非平衡分类[7-12]. 多类非平衡分类有2种研究思路, 第1种是直接处理, 第2种是将其转换成多个二类非平衡数据来研究. 采用第1种方法时, 由于分类取决于它与哪类进行比较, 因此类与类间关系更为复杂; 采用第2种方法时, 由于多个类间是相互联系的, 这种转换方法将丢失有价值信息[12]. 因此, 多类非平衡数据流分类的研究更具挑战性.
由此可见, 多类非平衡、概念漂移和异常点都会影响数据流分类模型性能, 当它们同时发生时, 会互相影响[13], 使数据流分类更为复杂. 例如, 随着时间的推移, 数据流的非平衡比率有可能会发生变化, 与之相应的采样机制应该随非平衡比率的变化而改变[14]. 目前, 众多学者对非平衡数据流的分类问题进行了研究. 如Bifet等[15]提出的LB (Leverage bagging)方法是解决概念漂移和多类非平衡问题的经典算法之一, 该方法通过被动适应来应对概念漂移; Mirza等[16]提出基于极限学习机的多类非平衡数据流分类算法(Meta-cognitive online seq-uential extreme learning machine, MOS-ELM), 是首次用于解决概念漂移和多类非平衡问题的方法; Barros等[17]提出一种在线学习集成算法(Boosting-like online learning ensemble, BOLE)将AdaBoost[18]引入数据流分类问题中, 用于解决多类非平衡问题. 此后, Ferreira等[19]提出自适应重采样随机森林算法(Adaptive random forests with resampling, ARFRE), 用于解决概念漂移和非平衡比率变化的非平衡数据流在线分类的问题.
然而, 上述方法都是有监督的学习方法(即假定在训练期间不受限制地访问类标签), 而在真实数据流中获取所有样本的真实标签非常困难或者代价很高. 因此, 近年来主动学习方法[20]备受关注, 原因是其有望用最少样本标签构建预测模型. 目前, 将主动学习方法与在线分类技术相结合, 已成为数据流分类的有效方法之一.
本文提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream, OALM-IDS). 该方法由初始化阶段、在线学习阶段和概念漂移检测阶段构成. 在初始化阶段, 提出一种基于非平衡比率和自适应遗忘因子的样本初始权重定义方法, 使AdaBoost.M2方法适用于非平衡数据流, 提升了非平衡数据流集成分类器的性能; 在在线学习阶段, 为了适应数据分布的变化, 提出了边际阈值矩阵的自适应调整方法, 使标签请求策略可以选出难分和少数类的样本, 用于概念漂移后重新训练分类器; 在概念漂移检测阶段, 定义了基于集成分类器分类偏差的概念漂移指数, 并基于概念漂移指数, 定义了自适应遗忘因子, 从而将概念漂移程度融入模型重构.
本文主要贡献有以下3点:
1)针对非平衡漂移数据流分类任务, 提出一个在线主动学习框架;
2)提出含有自适应遗忘因子的样本初始权重定义方法, 使AdaBoost.M2方法适用于非平衡数据流, 并可以根据概念漂移程度实现分类模型的重构;
3)提出基于样本分类不确定程度的边际阈值矩阵自适应调整方法, 构建了基于混合标签请求策略的主动学习模型.
图 1 算法框架
图 2 6种算法的ROC曲线
图 5 Statlog的准确率曲线
本文研究多类非平衡、概念漂移和异常点并存的数据流在少量真实标签情况下的在线分类问题, 提出一种非平衡漂移数据流在线主动学习方法. 定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量, 使得AdaBoost.M2适用于非平衡数据流环境; 提出基于样本分类不确定程度的自适应标签请求策略, 使得难分和少数类样本可以获得更多的训练机会; 定义了基于分类偏差的概念漂移指数, 并将其引入时间衰减机制, 用于模型的重构.
为了增强非平衡数据流在线主动学习方法的鲁棒性, 在未来工作中, 将关注以下问题. 首先, 在有新类的流数据中, 要考虑如何评估异常点的分布情况. 其次, 除了通过主动学习解决样本标签稀缺问题外, 还可以尝试结合迁移学习研究更有效的方法.
作者简介
李艳红
山西大学计算机与信息技术学院副教授. 主要研究方向为数据挖掘, 机器学习. 本文通信作者. E-mail: liyh@sxu.edu.cn
任霖
山西大学计算机与信息技术学院硕士研究生. 主要研究方向为数据挖掘, 机器学习. E-mail: renlinssdx@163.com
王素格
山西大学计算机与信息技术学院教授. 主要研究方向为自然语言处理, 机器学习. E-mail: wsg@sxu.edu.cn
李德玉
山西大学计算机与信息技术学院教授. 主要研究方向为数据挖掘, 人工智能. E-mail: lidy@sxu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-12 14:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社