博文

专题介绍——SPSS聚类分析和因子分析（2010.10.10）

已有 14297 次阅读 2010-10-29 13:54 |个人分类:读书会之专题介绍|系统分类:人文社科| SPSS, 聚类分析, 因子分析, 专题介绍

——专题介绍人：傅柯萌

SPSS（Statistical Product and Service Solutions），“统计产品与服务解决方案”软件.

如今SPSS已出至版本18.0，而且更名为PASW Statistics

一、数据录入

1、定义数据文件的格式，单击variable view，切换到变量视图

2、变量名的规则

3、常用变量类型（1）Numeric：可以标准或科学记数法显示数字

（2）String：字符型不能用于数值计算。用户可在定义的长度范围内输入任意字符，且可以区分字母的大小写，也可支持文字数字混排

4、单击data view，回到数据视图，依次输入数据

二、聚类分析

1、定义：根据事物本身的特性研究个体分类的方法，原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。

2、步骤：在AnalyzeàClassify下：

（1）K-Means Cluster：观测量快速聚类分析过程

（2）Hierarchical Cluster：分层聚类（进行观测量聚类和变量聚类的过程）

（3）Discriminant：进行判别分析的过程

3、分层聚类：又称系统聚类，是按物以类聚原则研究事物的分类。根据样本（观测量）的多指标（变量）、多个观察数据、定量地确定样本、指标之间存在的相似性或亲疏关系，据此联结这些样本或指标归成大小类群，构成分类的树状图（Dendrogram）或冰柱图（Icicle）

根据分类对象的不同，分为样本（观测量）聚类和变量聚类两种：

（1）样本聚类（Q型聚类）：对观测量(Case)进行聚类（不同的目的选用不同的指标作为分类的依据，如选拔运动员与分课外活动小组）

（2）变量聚类（R型聚类）：是一种降维的方法，用于在变量众多时寻找有代表性的变量，以便在用少量、有代表性的变量代替大变量集时，损失信息很少.

4、Cluster method：

（1）Between-groups linkage：类间平均法；（2）Within-groups linkage：类内平均法；（3）Nearest neighbor：最短距离法；（4）Furthest neighbor：最长距离法；（5）Centroid clustering：（6）重心聚类法（measure用euclidean距离法）；（7）Median cluster：中位数聚类法；（8）ward’s method：离差平方和法

5、Measure-interval：

（1）squared uclidean distance 平方欧式距离；（2） uclidean distance 欧式距离；（3）cosine夹角余弦(R型)；（4）pearson correlation皮尔逊相关系数®；（5）chebychev 切比雪夫距离；（6）block 绝对值距离；（7）minkowski明考斯基；（8）customized 自定义距离

变量聚类（Q型聚类）：与R型聚类唯一不同之处在于距离测量的方法选择上，只能选择cosine夹角余弦和pearson correlation皮尔逊相关系数

三、聚类分析操作演示

分层聚类步骤（总结）

（1）选择measure测量样本之间的距离，以Proximity matrix（相似性矩阵）呈现结果

（2）根据样本间的距离，选择method进行聚类分析，以凝聚图、冰柱图或柱状图呈现聚类过程

四、因子分析

1、因子分析基本概念：

（1）因子载荷：在各个因子变量不相关情况下，因子载荷aij就是第i个原有变量和第j个因子变量的相关系数，即xi在第j个公共因子变量上的相对重要性。

（2）公共方差：反映全部公共因子变量对原有变量xi的总方差解释说明比例。

（3）公共因子的方差贡献：反映该因子对所有原始变量总方差的解释能力，其值越高，说明因子重要程度越高。

2、因子分析基本步骤

（1）确定待分析的原有若干变量是否适合因子分析。如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。数据越相关，降维效果就越好

（2）构造因子变量

（3）利用旋转使得因子变得更具有可解释性

（4）计算因子变量得分

3、Correlation matrix（相关系数矩阵）

（1）Coefficients（系数矩阵）：大部分系数低于0.3，不适合进行因子分析

（2）Significance levels（显著性水平）：显示相关系数的单侧显著性水平

（3）Determination（相关系数矩阵行列式值）

（4）Inverse（逆相关系数矩阵）

（5）Reproduced（再生相关系数矩阵）：因子分析的估计相关系数矩阵，显示残缺值

（6）anti-image（反映像相关系数矩阵与反映像协方差矩阵）：反映像相关系数矩阵中有些元素的绝对值较大，则不适合因子分析

（7）KMO and Bartlett’s test of spherucity（KMO 抽样适度测定值与Bartlett球形检验值）：KMO在0.7以上都适合因子分析； B巴特利球形检验值较大，相伴概率值越小，适合用于因子分析

五、因子分析操作演示

转载本文请联系原作者获取授权，同时请注明本文来自马费成科学网博客。
链接地址：https://blog.sciencenet.cn/blog-493837-378297.html

上一篇：专题介绍——发散思维方法
下一篇：专题介绍——价值视角生命周期组（2010.10.23）

收藏 IP: .*| 热度|

当前推荐数：1 推荐人：宋敦江

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

马费成

扫一扫，分享此博文

mafeicheng的个人博客分享 http://blog.sciencenet.cn/u/mafeicheng

博文

专题介绍——SPSS聚类分析和因子分析（2010.10.10）

当前推荐数：1 推荐人：宋敦江

该博文允许注册用户评论请点击登录评论 (2 个评论)

马费成

全部作者的其他最新博文

全部精选博文导读

相关博文

mafeicheng的个人博客分享 http://blog.sciencenet.cn/u/mafeicheng

博文

专题介绍——SPSS聚类分析和因子分析（2010.10.10）

当前推荐数：1 推荐人： 宋敦江

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

马费成

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：宋敦江

该博文允许注册用户评论请点击登录评论 (2 个评论)