mafeicheng的个人博客分享 http://blog.sciencenet.cn/u/mafeicheng

博文

专题介绍——SPSS聚类分析和因子分析(2010.10.10)

已有 14297 次阅读 2010-10-29 13:54 |个人分类:读书会之专题介绍|系统分类:人文社科| SPSS, 聚类分析, 因子分析, 专题介绍

——专题介绍人:傅柯萌

 

SPSSStatistical Product and Service Solutions),“统计产品与服务解决方案”软件.

如今SPSS已出至版本18.0,而且更名为PASW Statistics

 

一、数据录入

1、定义数据文件的格式,单击variable view,切换到变量视图

2、变量名的规则

3、常用变量类型(1Numeric:可以标准或科学记数法显示数字

         2String:字符型不能用于数值计算。用户可在定义的长度范围内输入任意字符,且可以区分字母的大小写,也可支持文字数字混排   

4、 单击data view,回到数据视图,依次输入数据

 

二、聚类分析

1、定义:根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。

2、步骤:在AnalyzeàClassify下:

1K-Means Cluster: 观测量快速聚类分析过程

2Hierarchical  Cluster:分层聚类(进行观测量聚类和变量聚类的过程)

3Discriminant:进行判别分析的过程

3、分层聚类:又称系统聚类,是按物以类聚原则研究事物的分类。根据样本(观测量)的多指标(变量)、多个观察数据、定量地确定样本、指标之间存在的相似性或亲疏关系,据此联结这些样本或指标归成大小类群,构成分类的树状图(Dendrogram)或冰柱图(Icicle

根据分类对象的不同,分为样本(观测量)聚类和变量聚类两种:

1)样本聚类(Q型聚类):对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)

2)变量聚类(R型聚类):是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少.

4Cluster method

1Between-groups linkage:类间平均法 ;(2Within-groups linkage:类内平均法 ;(3Nearest neighbor:最短距离法;(4Furthest neighbor:最长距离法;(5Centroid clustering:(6)重心聚类法(measureeuclidean距离法);(7Median cluster:中位数聚类法 ;(8ward’s method:离差平方和法

5Measure-interval

1squared uclidean distance 平方欧式距离;(2uclidean distance   欧式距离;(3cosine夹角余弦(R);(4pearson correlation皮尔逊相关系数®;(5chebychev  切比雪夫距离 ;(6block 绝对值距离;(7minkowski明考斯基;(8customized 自定义距离 

变量聚类(Q型聚类):与R型聚类唯一不同之处在于距离测量的方法选择上,只能选择cosine夹角余弦和pearson correlation皮尔逊相关系数

 

三、聚类分析操作演示

分层聚类步骤(总结)

1)选择measure测量样本之间的距离,以Proximity matrix(相似性矩阵)呈现结果

2)根据样本间的距离,选择method进行聚类分析,以凝聚图、冰柱图或柱状图呈现聚类过程

 

四、因子分析

1、因子分析基本概念:

1)因子载荷:在各个因子变量不相关情况下,因子载荷aij就是第i个原有变量和第j个因子变量的相关系数,即xi在第j个公共因子变量上的相对重要性。

2)公共方差:反映全部公共因子变量对原有变量xi的总方差解释说明比例。

3)公共因子的方差贡献:反映该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。

2、 因子分析基本步骤

1)确定待分析的原有若干变量是否适合因子分析。如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好

2)构造因子变量

3)利用旋转使得因子变得更具有可解释性

4)计算因子变量得分

3Correlation matrix(相关系数矩阵)

1Coefficients(系数矩阵):大部分系数低于0.3,不适合进行因子分析

2Significance levels(显著性水平):显示相关系数的单侧显著性水平

3Determination(相关系数矩阵行列式值)

4Inverse(逆相关系数矩阵)

5Reproduced(再生相关系数矩阵):因子分析的估计相关系数矩阵,显示残缺值

6anti-image(反映像相关系数矩阵与反映像协方差矩阵):反映像相关系数矩阵中有些元素的绝对值较大,则不适合因子分析

7KMO and Bartlett’s test of spherucityKMO 抽样适度测定值与Bartlett球形检验值):KMO0.7以上都适合因子分析; B巴特利球形检验值较大,相伴概率值越小,适合用于因子分析

 

五、因子分析操作演示



https://blog.sciencenet.cn/blog-493837-378297.html

上一篇:专题介绍——发散思维方法
下一篇:专题介绍——价值视角生命周期组(2010.10.23)
收藏 IP: .*| 热度|

1 宋敦江

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 06:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部