大鲲逍遥居分享 http://blog.sciencenet.cn/u/sjk

博文

宋杰鲲-SPSS Clementine讲义实例

已有 9131 次阅读 2013-4-20 17:19 |系统分类:科研笔记| SPSS, 数据挖掘, 讲义, Clementine

讲义实例

1 关联规则挖掘——Apriori算法

9个顾客去超市购买商品,对应9个交易事务,每个事务有一个标识符TID。数据库中包含5个项:I={I1,I2,I3,I4,I5};包括9个事务(项集),分别为T100={I1,I2,I5}I

已知其最小支持度阈值和最小置信度阈值分别为22%70%,找出其中的所有强规则。

1.1交易数据格式下的关联规则挖掘

交易数据对于每个交易或项目具有一个单独的记录。例如,如果客户进行了多次采购,则每次采购都会有一个单独的记录,并且相关联的商品与客户 ID 相链接。这种格式有时称为行穷尽格式。

客户

采购

1

jam

2

milk

3

jam

3

bread

4

jam

4

bread

4

milk

Apriori、CARMA 和序列节点都可使用交易数据。

使用交易数据进行关联规则挖掘的步骤如下:

步骤1:创建Excel数据库,结构如下:

步骤2:打开SPSS Clementine软件,在“数据源”选项卡中,双击“Excel”节点,则在流工作区显示该节点,双击该节点,设置“数据”选项卡,导入上述文件,如图:

设置“类型”选项卡,“读取值”,并设置方向为“双向”,如图:

步骤3:单击“确定”按钮。在流中添加“Apriori”建模节点,在“字段”选项卡中选择“使用定制设置”,并核实“使用事务处理格式”,ID选择“TID”,内容选择“items”,如图:

在“模型”选项卡中设置最低条件支持度“22”,最低规则置信度“70”,如图所示:

步骤4:单击“执行”,在Clementine管理器“模型”选项卡中显示模型,右键“浏览”,结果如下:

可见,最终形成的强规则包括:

I4=>I2, support=22%, confidence=100%

I5=>I1, support=22%, confidence=100%

I5=>I2, support=22%, confidence=100%

I5I1=>I2, support=22%, confidence=100%

I5I2=>I1, support=22%, confidence=100%

1.2表格格式下的关联规则挖掘

表格数据(也称为篮子数据或真值表数据)由单独的标志表示项目,其中每个标志字段表示一个特定项目的存在或不存在。每个记录表示一个相关项目的完整集合。标志字段可以是分类的也可以是数字的,但某些模型具有更具体的要求。

客户

Jam

Bread

Milk

1

T

F

F

2

F

F

T

3

T

T

F

4

T

T

T

Apriori、CARMA、GRI 和序列节点都可使用表格数据。

使用表格数据进行关联规则挖掘的步骤如下:

步骤1:创建Excel数据库,结构如下:

步骤2:打开SPSS Clementine软件,在“数据源”选项卡中,双击“Excel”节点,则在流工作区显示该节点,双击该节点,设置“数据”选项卡,导入上述文件,如图:

设置“类型”选项卡,“读取值”,并设置方向为“双向”,如图:

步骤3:单击“确定”按钮。在流中添加“Apriori”建模节点,在“字段”选项卡中选择“使用定制设置”,后项选择“全选”,前项也选择字段“全选”,如图:

在“模型”选项卡中设置最低条件支持度“22”,最低规则置信度“70”,如图所示:

步骤4:单击“执行”,在Clementine管理器“模型”选项卡中显示模型,右键“浏览”,结果如下:

结果与交易数据格式下的结果完全一样。



https://blog.sciencenet.cn/blog-71538-682195.html

上一篇:宋杰鲲-SPSS Clementine讲义- 第1章 Clementine概述
下一篇:宋杰鲲-SPSS Clementine讲义2
收藏 IP: 218.58.243.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-19 10:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部