何谓动态数据挖掘(DDM)?
由于信息时效性越来越短,为了能充分把握新颖性的信息,对实际应用数据源(数据库、序列数据或流式数据等)在其运行的同时进行数据动态提取并加以分析来得到相关知识。
相关工作有哪些?
持续数据挖掘 、流式数据挖掘、移动数据流挖掘和Web在线数据挖掘
DDM的问题?
关键是如何选取当前数据集,如何保持与历史数据平滑过渡,以及如何平滑地获取后续数据集。(现在current,过去old,将来new)
DDM vs DM?
传统的数据挖掘主要是基于历史数据集进行挖掘,提取出隐藏在其中的知识,而动态数据挖掘是集过去现在与未来于一体的知识提取的过程,动态处理各实时数据。
动态数据挖掘的体系机构?
- 保证新旧数据的平滑以及数据的及时或实时获取,运用动态数据窗口进行数据的实时动态处理;
- 支持自动更新处理;
- 数据挖掘与挖掘评价是紧密结合的两个过程,采用后续数据集中数据对挖掘结果进行评价,评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变。
核心技术:
动态数据挖掘过程?
1. 动态数据采集
- 时间关联性强 -- 滑动窗口,某时刻的历史快照
- 时间关联性不太强或者离散数据 -- 数据库SQL语句 WHERE time between T - 2 and T ( T为当前时间)
2. 动态数据处理
包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。
考虑到边界数据可能被忽略,结合重叠窗口技术,采用动态数据窗口,让重叠部分的数据(边界数据) 重复计算。
3. 数据挖掘
- 时间性要求不强:只是为了获取新颖的知识,可用传统的挖掘算法
- 时间性要求较强:效率要高
合理的挖掘布局算法, 即什么时候启动挖掘。
挖掘过程处理数据与未处理数据以及目标数据集之间的数据平滑问题:K标号法(初始标号为0,每参与一次挖掘过程则将TDi的标号值加1,直到标号变为K( K ∈ N ) , 在每次启动挖掘时只使用标号值小于K的数据。)
4. 挖掘测试
采用后续数据对挖掘结果进行动态检测
Reference:动态数据挖掘研究(计算机应用)
https://blog.sciencenet.cn/blog-425672-320222.html
上一篇:
SPRINT分类算法下一篇:
MapReduce