|||
1、 什么是数据挖掘?
数据挖掘也称知识发现(Knowledge Discovery in Database, KDD),是指:
l the science of extracting useful information from large data sets or database [1]
l data mining involvesthe use of sophisticated data analysis tools to discover previously unknown, valid patterns and relationships in large data sets [2]
数据挖掘技术大量应用于信息、工程和商业领域,较少应用于科学领域。实际上,科学领域内的数据分析就是一个典型的数据挖掘的过程,只不过,这个过程是通过推理,演算和假设等等人工思维所完成,而非像数据挖掘那样依赖于机器和算法来自动地完成。此外,科学领域人们习惯限定问题的尺度来简化问题,其所分析的变量远远小于工程和社会学领域所分析的变量。
然而,数据挖掘也并非完全独立于科学领域内的数据分析过程,重新建立一套算法来进行数据分析。首先,数据挖掘的步骤模仿了常规数据分析的步骤,也包括问题的提出,数据选择,预处理,分析,建立模型进行预测(预报)和检验模型等一系列步骤。再者,数据挖掘技术整合了常规数据分析中可以自动化,并且具有广泛适用性的算法,如预测模型中常用的神经网络,自回归模型及统计分类中的贝叶斯方法等等。
数据挖掘与常规数据分析方法最大的区别有两点:其一,前者自动化程度较高;其二,前者适用性高。这里说是区别,而不用优点,是因为这两点有时也会转化成为数据挖掘的缺点:其一,常规分析中靠大脑完成的推理,演算,假设和简化也是一种理解数据的过程,把这一过程让于计算机,也许真的会与宝藏擦肩而过;其二,普遍性的方法有时也忽略了系统的特性。如K41理论力求发现湍流的普适特征的同时,也忽略了对湍流独特结构的研究。因此,数据挖掘技术不能很随意进行推广与应用,特别是在科学领域。
数据挖掘技术可能更适用于具有下述特征的问题:
l 适合利用计算机进行自动化分析的问题
l 涉及大量相关变量,每一变量具有海量的数据
l 系统特性完全未知或知之甚少
l 较难通过推理,演算,假设和简化等步骤进行常规理论分析的问题
2、 数据挖掘能做些什么?[3]
数据挖掘所要完成的任务其实也非常简单,如果一个人有无限的精力,并且不考虑效率的话,仅靠双手也能完成这些工作。只不过,我们往往面临海量的数据,而又必须在短时间内,以较高的准确度完成数据分析工作,这就必须依赖计算机和有效的算法(即数据挖掘算法)。具体来说,数据挖掘(算法)主要完成:
l 数据的分类(Classification)例如:超市中将牙膏归为日用品类,将啤酒归为副食类等等
l 数据之间的关联分析(Association)例如:对购物篮数据的分析表明,年轻的父亲买尿布的同时也往往会选择买啤酒
l 数据的排序(Sequence)例如:结婚以后,人们更可能去买保险
l 数据的聚类(Clustering or Segmentation),这也是数据的分类,只不过在分类之间还必须确定数据的类别。
3、 数据的预处理[4-5]
在数据挖掘之前需进行数据的预处理。数据的预处理在数据挖掘领域也称为数据清洗,主要就是修补源数据(找出空值并插值),去掉不合常识的数据(物理判断),检测和修正孤立点(去野点和插值),数据平滑(去噪声)。
修补源数据所用方法有:
l 使用一个全局值来填充(如unknown、估计的最大或最小值,简单插值)
l 统计该属性的所有非空值,并用平均值来填充空缺项(统计插值)
l 只使用同类对象的属性平均值填充(统计插值)
l 利用回归或工具预测最可能的值,并用它来填充(模型插值)
检测和修正孤立点的方法
l 聚类技术
数据平滑的方法有:
l 分箱方法(Binning)检测周围相应属性值来进行局部数据平滑
l 回归函数探测和修正噪声数据
4、 应用举例
下面收集的是部分应用于科学研究领域内(特别是大气科学)的例子:
l 天气预报[6]。利用模板匹配技术对各个天气型进行分类,从而为建立不同天气型的预报模型提供依据。模板匹配,顾名思义,即指利用历史天气资料,挑选出若干具有典型特征的天气型,这些天气型称为模板。其它资料与这些模板进行对比,与其相似即归为一类。
还有一种应用,利用相似离度分析方法进行预报。原理很简单,相似的天气型反映了相似的物理过程,因而具有相似的天气现象。利用算法找出相似的天气型,即可根据已知天气型的天气现象预报与其相似天气型的天气现象。
注意到,这两种技术的新颖之处不在于思路和原理,而在于算法!
l 气温长期变化趋势的预测[7]。将数据进行平滑,然后用高阶多项式(时间幂函数)或谐波函数(谐波分析法,类似于功率谱分析)进行拟合,得到气温变化(可用简单函数表达的)趋势,从而进行预测。
平滑和谱分析均是数据分析中常用的方法,在这里却被冠以数据挖掘的名字。
l 系统中不同变量之间的相关检验[8]。利用聚类算法将所有物理量进行分类。如降雨量可分为暴雨、大雨、中雨、小雨以及无雨等若干类,每一类的判别标准(阈值)根据经验给出。利用关联规则算法判别物理量某些类别之间是否有相关关系。如利用该规则判定低日照时数与中等降雨有相关关系等等。
聚类算法原理上类似于通常所用的选阈值,挑事件的做法,如大于某一阈值的风为阵风或间歇性湍流等等。关联规则算法原理上类似于利用相关系数检验两个随机变量之间是否相关。
l 从卫星图片中识别火灾产生的烟羽[9]。利用支撑向量机自动识别出卫星照片中可疑图像是火灾产生的烟羽,还是其它无关紧要的诸如云团、灰尘、陆地、水面或冰雪等。我们组也曾用支撑向量机进行过大气污染物浓度的预报[10]。
参考文献:
[1] D. J. Hand, HeikkiMannila, and Padhraic Smyth, Principles of data mining, MIT Press, 2001
[2] J. W. Seifert, Data Mining: an overview, CRS reportfor congress, 2004
[3] S.Sumathi and S. N. Sivanandam, Data mining: anintroduction-Case study, Studies in Coumputational Intelligence, 29, 217-229(2006)
[4] 毛国君,段立娟,王实,石云编著,数据挖掘原理和算法(第二版),清华大学出版社,2007
[5] D. Pyle, Data preparation for data mining. MorganKaufmann Publishers, San Francisco, USA, 1999
[6] 李一平,数据挖掘技术在天气预报中的应用研究,学位论文,2003
[7] 焦飞,黄天文,何华庆,数据挖掘技术在气温长期变化趋势预测中的应用,广东气象,33-35,2006年第2期
[8] 万谦,陆建江,宋自,正态云关联规则在气象中的应用,解放军理工大学学报(自然科学版),第3卷第4期,2002
[9] Dominic Mazzoni, A data-miningapproach to associating MISR smoke plume heights with MODIS fire measurements, RemoteSensing of Environment, 107:138-148, 2007.
[10] 马晓光,胡非,利用支撑向量机预报大气污染物浓度,自然科学进展,14(3), 349-353,2004
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 00:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社