yewenjing的个人博客分享 http://blog.sciencenet.cn/u/yewenjing

博文

加权关联规则权值的计算

已有 8652 次阅读 2013-11-18 16:47 |系统分类:科研笔记

加权关联规则挖掘(以apriori和fp-tree算法为例)的权值计算。

以下面的数据为例来进行说明,表2中的交易权重和归一化权重只是截图结果,这里的具体数值可不要考虑。

加权支持度的计算为Sup(B)=count(B)*W(B)/总数;Sup(BD)=count(BD)*W(BD)/总数。

这里就是讨论W(BD)有几种计算方法及其优劣。




根据表1和表2可以很容易计算出单个项目的支持度,如Sup(B)=5*1/6=0.83

若要计算多个项目的支持度,如Sup(BD),Sup(BDA)那么项集BD或BDA的权值应该如何选取,即计算交易权重的方法,有以下几种:

1、取每条交易记录的最大值,如BDAC中权值最大的那个作为权值

2、取平均值,表2的交易权重即为该方法计算得出,这样计算不能突出重点项目

3、归一化值:Wi''=Wi/(W1+W2+……+Wk) ;W=(W1''+W2''+……+Wk'')/n,权值可能很小

4、

5、该方法的权值可能大于1

6、W(AB)=W(A)*W(B)/(W(A)+W(B))

7、若数据有两个维度,即X,Y分别属于不同维度,如X表示所购买的商品,Y表示购买的位置,则权值可以这样计算:W(X)*W(Y)

若权值大于1,可以进行归一化处理。

总之,权值的计算还有很多方法,计算时要根据自己数据的特点来选定。但是要注意关联规则挖掘的频繁及向下封闭的特性,即如果{AB}或{C}不频繁,则{ABC}也不频繁。如上述方法1、2就不可保证该特性,会造成数据的流失。这时候需要对关联规则算法进行改进,来适应权值的需要。



https://blog.sciencenet.cn/blog-882768-742786.html

上一篇:weka进行关联规则挖掘Apriori篇
下一篇:带背景word如何转成pdf格式(2010)及提取背景图片
收藏 IP: 211.162.33.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-27 20:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部