你来啦,我们谈谈人生和理想分享 http://blog.sciencenet.cn/u/iggcas010 机器学习、深度学习、数据挖掘

博文

机器学习之关联分析初步——概念

已有 1231 次阅读 2018-6-17 23:50 |系统分类:科研笔记| 机器学习, 关联分析, 初步

 本文介绍关联分析相关的基本概念



关联分析:从大量的数据中寻找事物之间的隐含关系,称为关联分析,有的教材称关联规则学习。

任何事物之间都是有关的,发现它们之间的隐含关系非常重要,本宝宝就不提啤酒和尿不湿的关联了。这种看似没有任何关系的东西其实也是有交集的,发现这种深层的关联关系对于商品定价、销售、促销、存货都有很大的帮助。获得顾客购买物品的信息就可用于类似商品的推荐和销售,以及关联商品的销售。一个顾客、很多顾客都出现的关联商品的销售应该引起管理人员的注意,这种频繁出现的关联信息就是频繁模式

 

先解释下什么是频繁模式

望文生义也能猜到,频繁模式就是频繁出现的模式,而模式又是事物赖以存在的形式(前面博文提到过),因此,频繁模式可以解释为:在数据集中频繁出现的项集、子序列、子结构等模式。


关联分析的目的是什么?—发现频繁项集,发掘关联规则 

频繁项集:经常出现在一起的事物的集合,例如上面的啤酒和尿不湿,用大括号哈

{啤酒,尿不湿},这就是一个集合,Python的集合也是这么表示的。

有的说项集是项的集合,也就是说,啤酒是,尿不湿也是

关联规则:就是两者之间紧密联系的关系,可用箭头表示,尿不湿—>啤酒,意思就是买了尿不湿可能就会买啤酒。

 

那么如果有人有疑惑?到底频繁和我们经常说的频繁有没有区别,或区别在哪里?

 

频繁到底是怎么定义的呢?一天吃三次饭,跑两次步?这是一种频次表示,不够书面(高大上),总有些学者创造一些新的名词,显得自己逼格高,别人都不懂,不明觉厉!听了报告只能说,“厉害”,到底哪里厉害又说不上来,这就是一种屏蔽小白的方法。

在描述频繁的概念中有两个名词经常用到,一个是支持度(瞬间恼火,联想一下支持向量,哈哈),一个是可信度(有的叫置信度,和统计学里面的置信度概念是差不多的,可简单理解为概率)。

 

下面解释支持度和可信度

 

支持度:数据集中该项集出现的概率,(只要包含该项集即可,含有项集外的项也可以)

可信度:这个概率是针对关联规则来说的,买了尿不湿又去买啤酒的概率是多大?这个信息很重要,尤其是对老板来说。

 

下面举例子说明支持度和可信度:

路边摊卖早点的地方,一般都有包子、油条、豆浆、煎饼、香肠

顾客的购买情况可能是:

序号

清单

1

油条、豆浆、香肠

2

包子、豆浆

3

包子、油条、豆浆、香肠

4

油条、煎饼

5

煎饼、豆浆、香肠

6

油条、煎饼、豆浆

7

包子、油条、煎饼、豆浆、香肠

 

在上面7条交易记录(序号和项集有的称事务)中,{包子}出现3次,则支持度为3/7{油条,豆浆}出现4次,支持度为4/7,很容易理解吧。{油条}出现的5次,支持度为5/7,那么油条—>豆浆的可信度为“在油条事件发生的情况下,发生豆浆事件的概率”也就是{油条,豆浆}的支持度/{油条}的支持度,这里为(4/7)÷(5/7)=4/5可信度是不是就是条件概率。

 

当数据量比较大时寻找事物之间的组合比较困难,特别是采用暴力方法(Brute Force)无疑是最笨的,那么如何高效地获得频繁项集呢?好,这是下一个博文的重点——Apriori算法




http://blog.sciencenet.cn/blog-1966190-1119469.html

上一篇:数据结构之链表
下一篇:人工智能与未来

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-11-14 16:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部