神山,圣湖,天路,草原,还有一头野驴!分享 http://blog.sciencenet.cn/u/wangzhong A lonely donkey from ITPCAS!

博文

生物统计学习笔记—直线回归与相关分析

已有 12997 次阅读 2009-3-10 20:49 |个人分类:资料积累|系统分类:科研笔记| 生物统计, 直线回归, 相关分析, 相关系数

变量间的协变关系(一个变量随着其它变量的变化而变化的关系)一般有两种:(1)因果关系:一个变量的变化受另一个变量或几个变量的制约,如微生物的繁殖速度受温度等因素的影响,一般用回归分析(regression analysis)来研究;(2)平行关系:两个以上变量之间共同受到另外因素的影响,如人的身高与体重之间的关系,一般用相关分析(correlation analysis)来研究。通过建立回归方程,回归分析可以预测依变量随自变量的变化规律;而相关分析则只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度,但不能用一个变量或多个变量去预测、控制另一个变量的变化。
直线回归
(1)回归方程的建立:
每一个x的取值,都有y的一个分布与之对应,而不是一个确定的y值。但当时,的平均数是与之对应的。可以用直线回归方程(linear regression equation)来描述x与y的均值的关系:是与x值相对应的依变量y的平均值的点估计值,a是截距,b为斜率,称为回归系数。根据最小二乘法(method of least square),a、b应使回归估计值与观测值的离差平方和最小,即:
为最小值。根据微积分学中的极值原理,必须使Q对a、b的一阶偏导数值为0,最终整理可得:
 
 ,SP是x的离均差与y的离均差的乘积和,SSx是x的离均差平方和。
通过实测值即可求得a、b,建立y随x变化的直线回归方程。
(2)直线回归的数学模型和基本假定
在直线回归中,y总体的每一个观测值由3部分组成:y的总体平均数,因x变化引起y的变异以及随机误差,故有:
或者
对样本资料,即:
对于直线回归分析,应满足3个基本假定:x是没有误差的固定变量,而y是随机变量,具有随机误差;x的任一值都对应一个呈正态分布的y总体;随机误差是相互独立的,且呈正态分布。
(3)假设检验
直线回归中,随机变量y的总变异可以分解为两部分:由x变异引起的变异和误差变异,因此,总变异的平方和:
代入,则有:
,即总变异平方和等于由x变异引起y变异的回归平方和加上误差引起的残差平方和,前者记作U或SS回归,U越大,说明回归效果越好;后者记作Q或SS离回归或SS剩余,Q越小,说明回归的估计误差越小。
由于直线回归只涉及一个变量,所以回归平方和的自由度为1,残差平方和的自由度为n-1-1=n-2。平方和除以相应的自由度即为方差。进行F检验,来检验直线回归的显著性。
直线相关
一含量为N的双变量正态分布总体,其平均数为,则其离均差乘积和可以表示直线相关两个变量的相关程度和性质。
为消除不同变量资料x、y的变异程度以及N的大小对离均差乘积和的影响,可以将其转换成以各自标准差为单位的标准离差后用N除之,则有双变量总体的相关系数:
对样本资料,则有:
统计中常引入决定系数(coefficient of determination),定义为相关系数r的平方,其含义是变量x引起y变异的回归平方和占y变异总平方和的比率,取值范围为[0,1],只能表示相关程度而不能表示相关性质。
相关系数的检验:t检验。
直线回归和直线相关的区别与联系:
区别:
(1)资料要求不同。回归要求依变量y服从正态分布,而x是可以精确测量和严格控制的量,一般称为I型回归;相关要求两个变量x、y服从双变量正态分布资料,若进行回归则称为II型回归,分别计算出两个回归方程。
(2)应用情况不同。描述两变量间依存变化的数量关系用回归分析,描述两变量间相关关系用相关分析。回归反映两个变量之间的单向关系,而相关则表示两个变量之间的相互关系是双向的。
联系:
(1)方向一致。如果对同一资料进行回归与相关分析,得到的回归方程中的b与相关系数r的正负号是相同的。
(2)假设检验等价。
(3)相关回归可以互相解释。


https://blog.sciencenet.cn/blog-116082-219436.html

上一篇:胜芳古镇印象
下一篇:Frasera speciosa — 一种美洲高山植物的中文名及国内引种地区
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 10:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部