|||
数据是一篇文章的基石,数据分析和统计就是构建基石的工具和过程,如果这个步骤出了问题,可以说文章就失去了支撑点。这个不多说,道理大家都明白。但具体到某一种统计方法的时候,却有很多人都犯糊涂。搞生态学的很少有人是统计学或数学出身,我们也无法彻底搞清楚每一种统计方法的公式和计算原理,但有些东西是必须明白的,包括此项分析方法的用途、适用的前提条件、关键统计结果的解读等等。今天就说一下主成分分析。
一、主成分分析的概念
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
二、主成分分析的用途
1、降维:减少变量,或减小数据量,用最少的变量来代表或理解某种生态学现象。
2、预测,用最少的变量来预测某种生态学结果。
3、找寻重要的生态因子。如研究某种鸟在什么树上做巢,可能涉及到食物、安全性、水源、隐蔽度等多种类型的因子,如果想把研究整得很复杂,找几十个因子是没问题的,关键是如何来确定其中的关键因子,或者理解为我们如何用简单的几个因子组合就可以准确找到鸟巢。
三、主成分分析应用的前提条件
1、因子数量应该比较多,否则搞主成分就没有意义。
2、因子之间的共线性或相关关系要比较强,所以要进行KMO检验。
3、变量类型必须为连续变量(可简单理解为有大小之别的数据,如植被盖度、海拔、温度、降水等),分类变量(无大小之分)是不能加入分析的,如坡向、树种等。很多论文把坡向的东西南北转化为1、2、3、4,虽然软件是可以给你算的,但结果毫无意义!!主成分分析说到本质上是分析的方差,可以想象无大小之分的数据,如何来计算方差!
四、重要分析结果的解读
1、如何确定是否可以做主成分分析。要看KMO的统计值,如果值>0.7,才表示适合做主成分分析!
2、如何确定主成分的个数。重点看两个值,主成分的特征值要>1,累计贡献率要>80%!
3、如何确定重要因子。要看转置矩阵中的各因子对应的特征值,值的正负表示正影响还是负影响,通常这个值的绝对值要大于0.3。
4、各主成分的定性。统计永远给出的是数值,关键是如何进行生态学意义的解读,这个要看具体研究的问题,在此不展开。
希望对大家有用,如有错漏还请指正。
补充:如果确定某些分类变量特别重要的,可以对其进行特征量化,如树种对于鸟类做巢确实比较重要,可以把其拆解为高度、树冠直径、侧向能见度等因子;坡向可以转化为每天日照时间等。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 07:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社