博文

宋杰鲲-SPSS Clementine讲义实例

已有 9152 次阅读 2013-4-20 17:19 |系统分类:科研笔记| SPSS, 数据挖掘, 讲义, Clementine

讲义实例

1 关联规则挖掘——Apriori算法

9个顾客去超市购买商品，对应9个交易事务，每个事务有一个标识符TID。数据库中包含5个项：I={I1,I2,I3,I4,I5}；包括9个事务（项集），分别为T100={I1,I2,I5}⊆I。

已知其最小支持度阈值和最小置信度阈值分别为22%和70%，找出其中的所有强规则。

1.1交易数据格式下的关联规则挖掘

交易数据对于每个交易或项目具有一个单独的记录。例如，如果客户进行了多次采购，则每次采购都会有一个单独的记录，并且相关联的商品与客户 ID 相链接。这种格式有时称为行穷尽格式。

客户	采购
1	jam
2	milk
3	jam
3	bread
4	jam
4	bread
4	milk

Apriori、CARMA 和序列节点都可使用交易数据。

使用交易数据进行关联规则挖掘的步骤如下：

步骤1：创建Excel数据库，结构如下：

步骤2：打开SPSS Clementine软件，在“数据源”选项卡中，双击“Excel”节点，则在流工作区显示该节点，双击该节点，设置“数据”选项卡，导入上述文件，如图：

设置“类型”选项卡，“读取值”，并设置方向为“双向”，如图：

步骤3：单击“确定”按钮。在流中添加“Apriori”建模节点，在“字段”选项卡中选择“使用定制设置”，并核实“使用事务处理格式”，ID选择“TID”，内容选择“items”，如图：

在“模型”选项卡中设置最低条件支持度“22”，最低规则置信度“70”，如图所示：

步骤4：单击“执行”，在Clementine管理器“模型”选项卡中显示模型，右键“浏览”，结果如下：

可见，最终形成的强规则包括：

I4=>I2, support=22%, confidence=100%

I5=>I1, support=22%, confidence=100%

I5=>I2, support=22%, confidence=100%

I5∧I1=>I2, support=22%, confidence=100%

I5∧I2=>I1, support=22%, confidence=100%

1.2表格格式下的关联规则挖掘

表格数据（也称为篮子数据或真值表数据）由单独的标志表示项目，其中每个标志字段表示一个特定项目的存在或不存在。每个记录表示一个相关项目的完整集合。标志字段可以是分类的也可以是数字的，但某些模型具有更具体的要求。

客户	Jam	Bread	Milk
1	T	F	F
2	F	F	T
3	T	T	F
4	T	T	T

Apriori、CARMA、GRI 和序列节点都可使用表格数据。

使用表格数据进行关联规则挖掘的步骤如下：

步骤1：创建Excel数据库，结构如下：

设置“类型”选项卡，“读取值”，并设置方向为“双向”，如图：

步骤3：单击“确定”按钮。在流中添加“Apriori”建模节点，在“字段”选项卡中选择“使用定制设置”，后项选择“全选”，前项也选择字段“全选”，如图：

在“模型”选项卡中设置最低条件支持度“22”，最低规则置信度“70”，如图所示：

步骤4：单击“执行”，在Clementine管理器“模型”选项卡中显示模型，右键“浏览”，结果如下：

结果与交易数据格式下的结果完全一样。

转载本文请联系原作者获取授权，同时请注明本文来自宋杰鲲科学网博客。
链接地址：https://blog.sciencenet.cn/blog-71538-682195.html

上一篇：宋杰鲲-SPSS Clementine讲义- 第1章 Clementine概述
下一篇：宋杰鲲-SPSS Clementine讲义2

收藏 IP: 218.58.243.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

宋杰鲲

扫一扫，分享此博文

大鲲逍遥居分享 http://blog.sciencenet.cn/u/sjk

博文

宋杰鲲-SPSS Clementine讲义实例

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

宋杰鲲

全部作者的其他最新博文

全部精选博文导读

相关博文

大鲲逍遥居分享 http://blog.sciencenet.cn/u/sjk

博文

宋杰鲲-SPSS Clementine讲义实例

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

宋杰鲲

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)