|||
主成分分析(principal component analysis,PCA)分析流程
熊荣川
六盘水师范学院生物信息学实验室
http://blog.sciencenet.cn/u/Bearjazz
在变量较多时常常用到组成分分析,已达到降低变量个数的目的。
下面简单的总结一下流程,主要的软件工具是SPSS
step1 当然是准确无误的数据表,通常在Excel中完成,spss可以从Excel表中直接读入数据,但是格式最好是".xls"以及“.xlsx”格式,个人经验觉得“.csv”格式再导入时总是不太顺利。
step2 在spss读入表格数据,从“文件类型”的下拉菜单中选择Excel格式
如果工作表较多,记得选择相应的工作表输入
Step3不管三七二十一,直接进行主成分分析
打开因子分析面板
导入要“降维”的变量到“变量”区域中,打开“描述”面板进行设置
然后设置“抽取”面板,
方法“主成分”,这里就点题了哈
最大收敛性迭代次数默认为25,这里因为我们的样品量较大,所以输入300次
特征值大于1,小于1就没有意义
下面设置“得分”面板,这很关键,降维的目的就是减少变量的个数,因此不能产生新的,数量较少的变量,那么主成分的分析意义就不大了。
因子得分就是新的变量,之前网上有很多中文教程讲解怎样计算,个人感觉理解来龙去脉还可以,真要计算起来,麻烦不说,容易出错。而且也没有必要,这里我们选择把因子保存为变量,即会在数据表格中出现,可以用作其他分析,如判别分析,聚类分析等等
选项面板的设置可以不管,
但是,网上看到一篇比较靠谱的英文教程介绍,可以在这里设置不显示较小的系数,例如小于0.3就显示为空,这样结果看起来更加的直观。
以上设置完成后,点击因子分析面板的“确定”按钮
结果出来之后,当然会有很多的表格,较为重要的首先是“解释的总方差”
表格,我们提取的主成分需要满足两个条件,一是,成分解释的方差“合计”需要大于1,另外累计百分比需要大于85%?(这个本人拿不准)。
另外一个重要的表格是,“成分矩阵”,每个成分是原始变量(或者部分原始变量)的某种线性方程式,每个变量在方程式中都对应一个系数,是这原是变量与该成分的相关性系数,绝对值越大,相关性越大,也同时说明改变对该成分的贡献较大,这就是为什么很多文献中用绝对值较大的变量来命名成分,赋予其一定的实际意义。
但是要对这些结果表格进一步分析话,可以导出为Excel表格文件再行操作
当然你可以把所有的结果导出为一个文件,在“导出的对象”一栏选择“全部”;
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-17 09:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社