沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

主成分分析(principal component analysis,PCA)分析流程

已有 20710 次阅读 2014-1-2 21:57 |个人分类:我的研究|系统分类:科研笔记| Analysis, Component, PCA)分析流程

主成分分析(principal component analysis,PCA)分析流程

 

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

 

在变量较多时常常用到组成分分析,已达到降低变量个数的目的。

下面简单的总结一下流程,主要的软件工具是SPSS

 

step1 当然是准确无误的数据表,通常在Excel中完成,spss可以从Excel表中直接读入数据,但是格式最好是".xls"以及“.xlsx”格式,个人经验觉得“.csv”格式再导入时总是不太顺利。

 

step2 在spss读入表格数据,从“文件类型”的下拉菜单中选择Excel格式

如果工作表较多,记得选择相应的工作表输入

 

Step3不管三七二十一,直接进行主成分分析

打开因子分析面板

导入要“降维”的变量到“变量”区域中,打开“描述”面板进行设置

然后设置“抽取”面板,

方法“主成分”,这里就点题了哈

最大收敛性迭代次数默认为25,这里因为我们的样品量较大,所以输入300次

特征值大于1,小于1就没有意义

下面设置“得分”面板,这很关键,降维的目的就是减少变量的个数,因此不能产生新的,数量较少的变量,那么主成分的分析意义就不大了。

因子得分就是新的变量,之前网上有很多中文教程讲解怎样计算,个人感觉理解来龙去脉还可以,真要计算起来,麻烦不说,容易出错。而且也没有必要,这里我们选择把因子保存为变量,即会在数据表格中出现,可以用作其他分析,如判别分析,聚类分析等等

选项面板的设置可以不管,

但是,网上看到一篇比较靠谱的英文教程介绍,可以在这里设置不显示较小的系数,例如小于0.3就显示为空,这样结果看起来更加的直观。

以上设置完成后,点击因子分析面板的“确定”按钮

结果出来之后,当然会有很多的表格,较为重要的首先是“解释的总方差”

表格,我们提取的主成分需要满足两个条件,一是,成分解释的方差“合计”需要大于1,另外累计百分比需要大于85%?(这个本人拿不准)。

另外一个重要的表格是,“成分矩阵”,每个成分是原始变量(或者部分原始变量)的某种线性方程式,每个变量在方程式中都对应一个系数,是这原是变量与该成分的相关性系数,绝对值越大,相关性越大,也同时说明改变对该成分的贡献较大,这就是为什么很多文献中用绝对值较大的变量来命名成分,赋予其一定的实际意义。

但是要对这些结果表格进一步分析话,可以导出为Excel表格文件再行操作

当然你可以把所有的结果导出为一个文件,在“导出的对象”一栏选择“全部”;

 

 




https://blog.sciencenet.cn/blog-508298-755304.html

上一篇:祝各位朋友新年快乐
下一篇:Sequencher软件进行极速DNA序列拼接
收藏 IP: 119.78.81.*| 热度|

3 杨华磊 俞立平 杨再超

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 09:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部