无知分享 http://blog.sciencenet.cn/u/monicashu 知识是个填不满的大坑 无知的精卫还是每日填着

博文

相关分析 和 关联挖掘

已有 4599 次阅读 2009-4-24 15:22 |个人分类:NLP|系统分类:科研笔记

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何。

复相关:研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系。

回归分析:所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。感兴趣的是由 X去预测Y。

关联挖掘(Pattern Analysis
http://www.hudong.com/wiki/%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99

频繁项集:项集(项的集合)的相对支持度P(A 并 B)满足预定义的最小支持度的。
关联规则:对频繁模式的形式表示,如频繁项集(computer, antivirus_software)可表示为:
        computer => antivirus_software [support = 2%, confidence = 60%]
其中,support=P(C并A) 是相对支持度,表示规则的有用性;confidence=P(A|C) 是置信度,表示规则的确定性。

规则根据维度分类,可分为:
       单维关联规则,如buys(X, computer) => buys(X, antivirus_software),
       多维关联规则,如age(X, 20-30) ^ income(X, 42K-49K) => buys(X, high resolution TV).
根据规则集中,规则是否涉及不同抽象层的项或属性来分类,可分 单层关联规则和多层关联规则。多层举例如:
       buys(X, computer) => buys(X, HP_printer)
       buys(X, laptop_computer) => buys(X, HP_printer)

从关联挖掘到相关分析
仅使用支持度和置信度度量来挖掘关联,导致产生大量规则,其中大部分是用户不感兴趣的。使用相关度量来扩展支持度-置信度框架,导致相关规则的挖掘。

https://blog.sciencenet.cn/blog-248173-227967.html

上一篇:判别模型 和 生成模型
下一篇:SVD
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 17:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部