|
引用本文
李艳红, 王甜甜, 王素格, 李德玉. 非平衡概念漂移数据流主动学习方法. 自动化学报, 2024, 50(3): 589−606 doi: 10.16383/j.aas.c230233
Li Yan-Hong, Wang Tian-Tian, Wang Su-Ge, Li De-Yu. Active learning method for imbalanced concept drift data stream. Acta Automatica Sinica, 2024, 50(3): 589−606 doi: 10.16383/j.aas.c230233
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230233
关键词
数据流分类,主动学习,概念漂移,多类不平衡
摘要
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型, 关键在于从实时到达且不断变化的数据流中检测并适应概念漂移. 目前, 为检测概念漂移和更新分类模型, 数据流分类方法通常假设所有样本的标签都是已知的, 这一假设在真实场景下是不现实的. 此外, 真实数据流可能表现出较高且不断变化的类不平衡比率, 会进一步增加数据流分类任务的复杂性. 为此, 提出一种非平衡概念漂移数据流主动学习方法(Active learning method for imbalanced concept drift data stream, ALM-ICDDS). 定义基于多预测概率的样本预测确定性度量, 提出边缘阈值矩阵的自适应调整方法, 使得标签查询策略适用于类别数较多的非平衡数据流; 提出基于记忆强度的样本替换策略, 将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中, 提升新基分类器的分类性能; 定义基于分类精度的基分类器重要性评价及更新方法, 实现漂移后的集成分类器更新. 在7个合成数据流和3个真实数据流上的对比实验表明, 提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法.
文章导读
随着互联网和移动通讯技术的发展, 流数据变得越来越普遍, 如社交网络、超市交易、传感器网络、垃圾邮件过滤等领域的数据往往都是以流的形式出现, 具有实时、动态变化、潜在无穷等特点[1]. 为从复杂多变的数据流中挖掘有价值的信息, 迫切需要研究面向数据流的高效学习方法实时捕获数据流中变化的簇结构[2].
在实际应用中, 数据流的概念漂移、标签成本昂贵和多类不平衡特性给数据流分类任务带来挑战, 这些特性往往同时存在、相互影响, 使得数据流的分类任务变得更加复杂[3]. 数据流的概念漂移是指随着时间的推移其数据分布发生不可预见的变化, 从而使得之前训练的分类模型不再适用[4]. 目前概念漂移的处理包括主动检测[5]和被动适应[6]两种方法. 主动检测方法通常基于分类模型性能的下降或数据分布的变化检测概念漂移, 只有在检测到概念漂移时才会更新分类模型[7]; 被动适应方法通常以固定的时间间隔采样数据流中的样本并定期调整分类模型, 无需进行概念漂移检测[8]. 被动适应方法以恒定的速度更新模型, 不具有针对性, 时间开销较大[9], 因此本文采用主动检测方法来处理概念漂移. 根据数据分布随时间推移变化速度和形式的不同, 可将概念漂移分为4种类型: 突变型、重复型、增量型和逐渐型. 其中突变型概念漂移是指在某一时刻, 旧数据分布突然变化为新数据分布; 重复型概念漂移是指发生突然型概念漂移后, 新数据分布维持一段时间又突然变为旧数据分布; 增量型概念漂移是指旧数据分布在一段时间内缓慢变化为新数据分布, 缓慢变化过程的数据分布为新旧数据分布的混合; 逐渐型概念漂移是指在一段时间内新数据分布逐渐取代旧数据分布, 在变化过程中新旧数据分布交替出现[10]. 为检测概念漂移以及更新分类模型, 现有的方法通常假定可以不受限制地访问数据流中所有样本的标签(即有监督的学习方法), 这在实际应用中是不现实的[11]. 而主动学习方法可以通过查询少量最有价值的样本标签构建分类模型, 进而解决标签成本昂贵的问题[12−13].
数据流的类不平衡特性会使分类模型对少数类样本的学习不够充分, 从而导致模型的分类准确率下降[14]; 而且类不平衡比率可能会随着时间的推移发生变化, 在设计标签查询策略时需要特别关注[15]. 类不平衡问题可以从数据[16]和算法[17]两个层面加以解决. 数据层面是指通过减少多数类样本或增加少数类样本来平衡类分布, 但这种方式会丢失有用信息或增加过拟合的风险. 算法层面是指通过给少数类样本增加额外的损失代价, 或者基于Boosting方法重新训练分错的样本, 使得分类模型更加关注少数类样本. 本文在标签查询和基分类器重构时分别使用基于算法层面和数据层面的类不平衡处理方式.
本文提出一种非平衡概念漂移数据流主动学习方法(Active learning method for imbalanced concept drift data stream, ALM-ICDDS), 该方法包括初始化阶段和在线学习阶段. 在初始化阶段训练初始集成分类器. 在线学习阶段, 首先使用初始集成分类器预测样本并计算样本的预测确定性, 基于该确定性和边缘阈值矩阵查询样本标签; 然后为了将难区分、少数类和代表当前数据分布的样本保存在记忆窗口中, 用新查询到标签的样本替换窗口中记忆强度最低的样本; 最后当检测到概念漂移时, 利用记忆窗口中的样本构建新基分类器并替换重要性最低的已有基分类器. 本文的主要贡献有以下几点:
1)提出基于多预测概率的样本预测确定性度量以及边缘阈值矩阵的自适应调整方法, 从而使标签查询策略适用于类别数较多的非平衡数据流.
2)提出基于记忆强度的样本替换策略, 将难区分、少数类和代表当前数据分布的样本保存在记忆窗口中, 并用于漂移后基分类器的重构.
3)定义基于分类精度的基分类器重要性评价及更新方法, 提出一种集成分类器更新机制.
图 1 算法框架
图 2 7种算法的ROC曲线
图 3 7种算法的精确率曲线
本文研究概念漂移、标签成本昂贵和多类不平衡数据流的主动学习方法, 定义基于多预测概率的样本预测确定性度量, 使得标签查询策略适用于类别数较多的不平衡数据流; 提出基于记忆强度的样本替换策略, 将难区分、少数类和代表当前数据分布的样本保存在记忆窗口中; 定义基于分类精度的基分类器重要性评价及更新方法, 用于集成分类器更新.
为增强概念漂移数据流主动学习方法的适应性, 在未来工作中, 我们将关注以下问题. 首先, 已有的概念漂移检测方法通常假定数据流中样本的标签都是已知的, 而这在真实应用中是不现实的, 需要研究无监督或半监督场景下的概念漂移检测方法. 其次, 现有的大多数数据流学习模型通常假设样本类别是固定的, 只能泛化到训练集中出现的类别, 因此需要研究适用于类别增量出现的数据流学习模型.
作者简介
李艳红
山西大学计算机与信息技术学院副教授. 主要研究方向为数据挖掘, 机器学习. 本文通信作者. E-mail: liyh@sxu.edu.cn
王甜甜
山西大学计算机与信息技术学院硕士研究生. 主要研究方向为数据挖掘, 机器学习. E-mail: wttstu@163.com
王素格
山西大学计算机与信息技术学院教授. 主要研究方向为自然语言处理, 机器学习. E-mail: wsg@sxu.edu.cn
李德玉
山西大学计算机与信息技术学院教授. 主要研究方向为数据挖掘, 人工智能. E-mail: lidy@sxu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 01:37
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社