||
不再赘述为什么要探讨这一点。
假设有k批试验,每一批采用的是双变量相关分析并得到一个相关系数,如何对相关系数进行合并呢?
错误的做法1:直接把k批数据汇总在一次,当做一批,来计算相关系数;
错误的做法2:将k个相关系数加和起来,除以试验批次,求得平均相关系数。
然而,这些统计上不恰当的做法,有着根深蒂固的潜意识中的合理性。
针对做法1,为什么不能视为同一批?这就涉及到你为什么把它们看作不同的“批”。比如,第一组是5月完成的,一代虫;第二组是8月完成的,第三世代的被试昆虫。是你主观认为,它们属于不同的“批”,感到有温度、湿度、世代等广泛的差异,怀疑它们不能直接加和,但又没有测定相关指标的情况下。如果“批”距离相当近,环境非常相似,方方面面都近似一样,那我想你的潜意识中,也不会认为它们是不同的“批次”。因此,当你潜意识中认为,在许多测量过程中存在着异质性,并且可以对测量数据分割为若干类别的情况下,做相关分析就会涉及这篇博文的内容了。
第2种做法的主要缺陷在于,当不同批次试验的样本容量(或者称为重复)相差非常悬殊的时候,这种“硬平均”有着严重的缺陷。这个问题已经在第一篇博文中探讨过。
正确的做法:可以简称为“r-z-z-r”变换。
为了让大家明确下述公式,首先给出各种参数字母的意义。r表示相关系数,k表示总试验批次,r的下角标i是一个在[1,k]之间变动的滑动变量,指的是试验的批次序号,n表示样本容量,e表示自然对数底数。
第一步,将每批测试中的相关系数转化为z值;
第二步,计算加权平均的z值,这个权,大小与每批的样本容量有关系(由于科学网的公式插入功能和word相比还是有缺陷,打不上去z上方的横线“吧”,只好贴出图片)。
那为什么要用每批测试的样本容量减去3,来作为权,而不是直接用样本容量呢?
不太清楚。
第三步,按下式计算平均相关系数。
到这一步,“平均相关系数”也就计算出来了。
第4步(可选项),平均相关系数的检验。
也就是说,前面的t检验,当自由度趋向无穷大的时候,相当于正态近似。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 14:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社