||
本文为美国伍斯特理工学院(作者:Zachary Stoecker-Sylvia)的硕士论文,共81页。
虽然已经在序列数据挖掘方面进行了很多工作,但在数字时间序列的数据挖掘方面却做得很少。这主要源于与数字数据相关的问题,这些数据可能包含错误或其他变化,从而使直接相关值的获取变得困难。为了解决这个问题,许多算法首先将数据转换成事件序列。在某些情况下,这些事件是具有先验信息的,但在另一些情况下则不是。我们的工作评估了一组时间序列数据的实例,以确定潜在未知事件的可能候选者。我们使用边界包络的概念来表示一个数字时间序列周围的区域,其中可能存在未知的无噪声点。然后,我们使用类似于Apriori的算法来建立一组包络交集,这些交叉点创建的区域表示在整个数据中发现的常见模式。
While much work has been done in mining nominal sequential data much less has been done on mining numeric time series data. This stems primarily from the problems of relating numeric data, which likely contains error or other variations which make directly relating values difficult. To handle this problem, many algorithms first convert data into a sequence of events. In some cases these events are known a priori, but in others they are not. Our work evaluates a set of time series data instances in order to determine likely candidates for unknown underlying events. We use the concept of bounding envelopes to represent the area around a numeric time series in which the unknown noise-free points could exist. We then use an algorithm similar to Apriori to build up sets of envelope intersections. The areas created by these intersections represent common patterns found throughout the data.
1 引言
1.1 时间序列数据
1.2 事件
1.3 误差
1.4 边界包络
1.5 Apriori算法
1.6 相关工作
2 我们设计的方法
2.1 概述
2.2 输入与输出
2.3 深入的过程描述
2.4 伪码实现
3 实验结果
3.1 合成数据
3.2 失业数据
3.3 每月股票报价
3.4 实时运行实验
4 结论
4.1 本文工作的贡献
附录A 失业数据表
附录B 每月股票报价表
下载英文原文地址:
http://page2.dfpan.com/fs/el5cdj7212b1d209163/
更多精彩文章请关注微信号:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-1 12:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社