||
讲义实例
1 关联规则挖掘——Apriori算法9个顾客去超市购买商品,对应9个交易事务,每个事务有一个标识符TID。数据库中包含5个项:I={I1,I2,I3,I4,I5};包括9个事务(项集),分别为T100={I1,I2,I5}⊆I。
已知其最小支持度阈值和最小置信度阈值分别为22%和70%,找出其中的所有强规则。
1.1交易数据格式下的关联规则挖掘交易数据对于每个交易或项目具有一个单独的记录。例如,如果客户进行了多次采购,则每次采购都会有一个单独的记录,并且相关联的商品与客户 ID 相链接。这种格式有时称为行穷尽格式。
客户 | 采购 |
1 | jam |
2 | milk |
3 | jam |
3 | bread |
4 | jam |
4 | bread |
4 | milk |
Apriori、CARMA 和序列节点都可使用交易数据。
使用交易数据进行关联规则挖掘的步骤如下:
步骤1:创建Excel数据库,结构如下:
步骤2:打开SPSS Clementine软件,在“数据源”选项卡中,双击“Excel”节点,则在流工作区显示该节点,双击该节点,设置“数据”选项卡,导入上述文件,如图:
设置“类型”选项卡,“读取值”,并设置方向为“双向”,如图:
步骤3:单击“确定”按钮。在流中添加“Apriori”建模节点,在“字段”选项卡中选择“使用定制设置”,并核实“使用事务处理格式”,ID选择“TID”,内容选择“items”,如图:
在“模型”选项卡中设置最低条件支持度“22”,最低规则置信度“70”,如图所示:
步骤4:单击“执行”,在Clementine管理器“模型”选项卡中显示模型,右键“浏览”,结果如下:
可见,最终形成的强规则包括:
I4=>I2, support=22%, confidence=100%
I5=>I1, support=22%, confidence=100%
I5=>I2, support=22%, confidence=100%
I5∧I1=>I2, support=22%, confidence=100%
I5∧I2=>I1, support=22%, confidence=100%
1.2表格格式下的关联规则挖掘表格数据(也称为篮子数据或真值表数据)由单独的标志表示项目,其中每个标志字段表示一个特定项目的存在或不存在。每个记录表示一个相关项目的完整集合。标志字段可以是分类的也可以是数字的,但某些模型具有更具体的要求。
客户 | Jam | Bread | Milk |
1 | T | F | F |
2 | F | F | T |
3 | T | T | F |
4 | T | T | T |
Apriori、CARMA、GRI 和序列节点都可使用表格数据。
使用表格数据进行关联规则挖掘的步骤如下:
步骤1:创建Excel数据库,结构如下:
步骤2:打开SPSS Clementine软件,在“数据源”选项卡中,双击“Excel”节点,则在流工作区显示该节点,双击该节点,设置“数据”选项卡,导入上述文件,如图:
设置“类型”选项卡,“读取值”,并设置方向为“双向”,如图:
步骤3:单击“确定”按钮。在流中添加“Apriori”建模节点,在“字段”选项卡中选择“使用定制设置”,后项选择“全选”,前项也选择字段“全选”,如图:
在“模型”选项卡中设置最低条件支持度“22”,最低规则置信度“70”,如图所示:
步骤4:单击“执行”,在Clementine管理器“模型”选项卡中显示模型,右键“浏览”,结果如下:
结果与交易数据格式下的结果完全一样。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-18 21:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社