科学方法与感悟分享 http://blog.sciencenet.cn/u/penghx

博文

聚类分析与判别分析

已有 11790 次阅读 2009-4-15 11:05 |个人分类:模式识别与人工智能|系统分类:科研笔记| 聚类分析, 判别分析


转自http://stats.blog.sohu.com/44741465.html

第一节  聚类分析统计思想

一、聚类分析的基本思想

1.什么是聚类分析

俗语说,物以类聚、人以群分。

当有一个分类指标时,分类比较容易。

但是当有多个指标,要进行分类就不是很容易了。

比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;

也可以考虑收入、教育水准、医疗条件、基础设施等指标;

对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。

所以需要进行多元分类,即聚类分析。

最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。

对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。

2.R型聚类和Q型聚类

对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。

聚类分析就是要找出具有相近程度的点或类聚为一类;

如何衡量这个“相近程度”?就是要根据“距离”来确定。

这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。

二、如何度量距离的远近:统计距离和相似系数

1.统计距离

距离有点间距离好和类间距离

2.常用距离

统计距离有多种,常用的是明氏距离。

3.相似系数

当对 个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称 为变量 和 间的相似系数。常用的相似系数有夹角余弦、相关系数等。

夹角余弦:

相关系数:

对于分类变量的研究对象的相似性测度,一般称为关联测度。

第二节  如何进行聚类分析

一、系统聚类

1.系统聚类的基本步骤

2.最短距离法

3.最长距离法

4.重心法和类平均法

5.离差平方和法

 二、SPSS中的聚类分析

1、事先要确定分多少类:K均值聚类法;

2、事先不用确定分多少类:分层聚类;

分层聚类由两种方法:分解法和凝聚法。

分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。

分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。

分层聚类的中要进行以下的选择:

数据的标准化

测度方法的选择:距离方法的选择或相似性、关联程度的选择。

聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。

输出图形的选择:树形图或冰柱图。

3、聚类分析要注意的问题。

      聚类方法的优缺点:

类平均法比较好,因为与类平均法相比,最短和重心法是“空间浓缩”,即并类的距离范围小,区别类的灵敏度差;

与类平均法相比,其他方法是“空间扩张”,即并类距离范围大,区别类的灵敏度强。

最短距离比最长距离法好

聚类结果中,如果孤类点太多,则说明该中聚类方法不好。

如果从减少孤类来看,一般情况下用Word’s方法最好。

      快速聚类法与层次聚类法应用区别

层次聚类法的聚类过程是单方向的,一旦某个样品(case)进入某一类,就不可能从该类出来,再归入其他的类。

而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初始分类可以进行反复调整.

在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。

后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。

首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类中心,对样本进行重新调整。
 

第三节  判别分析

一、判别分析的基本思路

1.为什么判别?

有一些昆虫的性别很难看出,只有通过解剖才能够判别;

但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。

这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。

2.判别分析(discriminant analysis)的含义

这就是本章要讲的是判别分析。

判别分析和前面的聚类分析有什么不同呢?

主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。

而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。

3.判别分析例子

例10.1 数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。

这些指标包括:

    企业规模(is)、服务(se)、
    雇员工资比例(sa)、利润增长(prr)、
    市场份额(ms)、市场份额增长(msr)、
    流动资金比例(cp)、资金周转速度(cs)等等。
另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。

我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。

4.判别分析的基本思路

设有G1、G2、…GK个总体,从不同的总体中抽出不同的样本,根据样本→建立判别法则→判别新的样品属于哪一个总体。

当然,根据不同的方法,建立的判别法则也是不同的。

常用的判别方法有:距离判别、Fisher判别、Bayes判别。

二、几种判别分析方法;

1.距离判别法(不用投影)

最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的马氏(Mahalanobis)距离。

用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。

假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1)和D(x,G2), 则

如果D(x,G1) < D(x,G2),则 x∈G1

如果D(x,G2) < D(x,G1),则 x∈G2

如果D(x,G1) = D(x,G2),则待判

2.Fisher判别法(先进行投影的距离判别)

所谓Fisher判别法,就是一种先投影的方法。

考虑只有两个(预测)变量的判别分析问题。

假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。

这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。

于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。

有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。

3.逐步判别法

有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。

逐步判别法的基本思路:

采用“有进有出”的方法。即在判别过程中,没有一个变量进入判别分析中,先对各变量进行计算、检验,从中挑选最主要的变量进入判别中。

然后再考虑较早引入判别式的某些变量,如果由于新变量的引入而原变量变为不重要了,则剔除判别式中,直到所有的重要变量都引入判别式中,所有的非重要变量都剔除判别式中为止。

如何判别那个变量重要呢? 

已知变量之间在各组中的差异越大越好,即为重要变量。

变量在各组间的差异可用多元的方差分析,即利用:

来分析变量的重要性。

 三、判别分析要注意的问题。

样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。

要选择好可能用于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。

要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。

判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。





https://blog.sciencenet.cn/blog-227347-226243.html

上一篇:从word到pdf的完全制作(包括链接和书签)
下一篇:应该去的几个地方
收藏 IP: .*| 热度|

3 周春雷 黄富强 宋敦江

发表评论 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 11:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部