Tmraz的个人博客分享 http://blog.sciencenet.cn/u/Tmraz

博文

数据挖掘·印象

已有 3652 次阅读 2013-11-30 21:07 |个人分类:StudyNote|系统分类:科研笔记| 数据挖掘

1、概念

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

2、数据挖掘要解决的问题

  • 可伸缩性

  • 高维性

  • 异种数据和复杂数据

  • 数据的所有权与分布

  • 非传统数据

3、数据挖掘的起源


4、数据挖掘任务

分为下面两大类

  •  预测任务。

这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量(target variable)或因变量(dependent variable),而用来做预侧的属性称说明变量explanatoryvariable或自变量independent variable

  • 描述任务。

其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

四种主要数据挖掘任务:聚类分析、预测模型、关联分析、异常检测。

预测建模(predictivemodeling)涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification),用于预测离散的目标变量:回归(regression),用于预测连续的目标变量。例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变量是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。

关联分析(associationanalysis)用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、理解地球气候系统不同元素之间的联系等。

聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。

异常检测(anomaly detection)的任务是识别共特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生志系统扰动等。

5、学习思路

从算法的角度了解数据挖掘所使用到的主要原理与技术,进而理解数据挖掘技术如何用于各种类型的数据。

6、知识架构

1)数据

数据分析的重要基础:数据的基本类型、数据质量、预处理技术以及相似性和相异性度量。

2)数据探查

通过汇总统计、可视化技术和联机分析处理(OLAP)三个主题认识,来快速理解数据集。

3)分类

  • 基础:决策树分类和一些重要的分类问题(过分拟合、性能评估和不同分类模型的比较)。

  • 其他重要的分类技术:基于规则的系统、最近邻分类器、贝叶斯分类器、人工神经网络、支持向量机以及组合分类器。讨论多类问题和不平衡类问题。

4)关联分析

  •  关联分析的基础:频繁项集、关联规则以及产生它们的一些算法。特殊类型频繁项集(极大项集、闭项集和超团集)以及关联分析的评估度量。

  • 各种更高级的专题包括:如何将关联分析用于分类数据和连续数据。或用于具有概念分层的数据。(概念分层是对象的层次分类,例如库存商品 服装 运动鞋。)

  •  如何扩展关联分析,以发现序列模式(涉及次序的模式)、图中的模式、负联系(如果一个项出现,则其他项不出现)。

5)聚类分析

  • 不同类型的簇

  • 三种特定的聚类技术:K均值、凝聚层次聚类和DBSCAN。接下去讨论验证聚类算法结果的技术。

  • 更多的聚类概念和技术:包括模糊和概率聚类、自组织映射(SOM)、基于图的聚类和基于密度的聚类。

  • 可伸缩问题和选择聚类算法需要考虑的因素。

6)异常检测

  •  基本定义

  •  若干类型的异常检测,包括统计的、基于距离的、基于密度的和基于聚类的。

 

参考文献

1、[]Pang-Ning, Tan, Michael, Steinbach, Vipin, Kumar. 数据挖掘导论[M]. 范明,范宏建等译. 北京:人民邮电出版社, 2011.

 




https://blog.sciencenet.cn/blog-753993-746051.html

上一篇:浅析:移动GIS、云GIS、大数据
收藏 IP: 59.56.172.*| 热度|

1 曹聪

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-30 11:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部