IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

F-粗糙集视角的概念漂移与属性约简

已有 1972 次阅读 2018-11-14 20:49 |系统分类:博客资讯

 


概念漂移是指:数据流中概念(或目标变量的统计特性)的不稳定性、不确定性,以及随着时间变化而变化的特征。

 

概念漂移探测是大数据、数据流研究的一个重点和难点。概念漂移探测是数据流挖掘的重要研究内容。当前概念漂移探测方法至少存在以下3个问题。首先,概念漂移的概念起源于数据流挖掘,当前对概念漂移探测的研究主要集中于概念外延的变化,即外延漂移,较少考虑概念内部之间的相互关系及其变化,即内涵漂移;其次,缺乏统一的概念漂移探测标准。概念漂移探测方法很多,但探测准则主要是分类准确率(或分类错误类),而分类准确率(或分类错误类)依赖于特征选择,对于同一训练集和同一测试集,特征选择不同,分类准确率可能不同;再次,工作量大,可重用性差。获取分类准确率(或分类错误类)需要很大的工作量,而且分类准确率依赖于训练集、分类器和测试集,只要其中的某个因素发生改变,其值就可能发生变化,结果很难重用。

概念漂移探测准则与属性约简准则有什么关系? 分析了3种概念漂移探测准则(分类准确率、联合概率分布和属性重要性)的特点,对照属性约简准则,定义了属性依赖度和条件熵的概念漂移探测准则。实验结果表明,与分类准确率、联合概率分布和属性重要性等概念漂移探测准则一样,属性依赖度、条件熵能有效地探测概念漂移;相比于分类准确率和联合概率分布,属性依赖度和条件熵既能用于理论分析又能进行实验检验,并且具有对称性和可重用性,可以节省大量工作量概念漂移与属性约简之间的关系为:属性约简是保持约简准则条件下不发生概念漂移的最小属性子集。概念漂移探测准则与属性约简准则之间的关系为:大部分属性约简准则能够用于概念漂移探测,有些概念漂移探测准则可以用于属性约简

实验数据为KDD-CUP991 网络入侵检测数据10% 的子集。 该数据包含494 021 条记录, 42 个属性。

当设置滑动窗口大小为10 000且滑动窗口之间无重复时,实验结果如图1所示。在探测概念漂移过程中,基于属性重要度/条件熵的分类准确率的值以及属性重要度的值均变化不明显,利用条件熵探测感念优于分类准确率和属性依赖度。

image002.png

Fig. 1 The size of sliding windows is 10 000 without repeat

当设置滑动窗口大小为5 000且滑动窗口之间无重复时,实验结果如图2所示。在探测概念漂移的过程中, 基于条件熵/属性重要度的分类准确率、属性重要度以及条件熵均可有效探测概念漂移,从整体效果来看,利用条件熵探测概念漂移优于基于属性重要度/条件熵的分类准确率和属性重要度的探测方法。

image004.png

Fig. 2 The size of sliding windows is 5 000 without repeat

当设置滑动窗口大小为5 000且滑动窗口之间有10%重复时,实验结果如图3所示。在探测概念漂移结果均不理想的情况下,条件熵作为概念漂移的探测准则较优。

image006.png

Fig. 3 The size of sliding windows is 5 000 with 10% repeat

 

 

当设置滑动窗口大小为10 000且滑动窗口之间有10%重复时,实验结果如图4所示。在部分滑动窗口,基于属性依赖度/条件熵的分类准确率以及属性重要度的探测概念漂移效果不理想,条件熵的变化能有效的探测概念漂移。

image008.png

Fig. 4 The size of sliding windows is 10 000 with 10% repeat

 

引用格式:邓大勇, 李亚楠, 黄厚宽. F-粗糙集视角的概念漂移与属性约简. 自动化学报, 2018, 44(10): 1781-1789


链接:http://html.rhhz.net/ZDHXBZWB/html/2018-10-1781.htm


作者简介:


邓大勇,浙江师范大学行知学院副教授.  2007年获得北京交通大学计算机应用技术专业博士学位. 主要研究方向为粗糙集理论及应用. 本文通讯作者. E-mail: dayongd@163.com


李亚楠 浙江师范大学数理与信息工程学院硕士研究生. 主要研究方向为数据挖掘. E-mail: ynli15@163.com


黄厚宽,北京交通大学教授. 主要研究数据挖掘和智能计算. E-mail: hkhuang@bjtu.edu.cn




https://blog.sciencenet.cn/blog-3291369-1146257.html

上一篇:《自动化学报》和《自动化学报》(英文版)订阅信息
下一篇:2019华东理工大学信息学院自动化系招聘
收藏 IP: 159.226.21.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 01:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部