liweizheng1978的个人博客分享 http://blog.sciencenet.cn/u/liweizheng1978

博文

多批次试验相关系数的合并

已有 588 次阅读 2024-8-23 08:12 |个人分类:统计学|系统分类:科研笔记

不再赘述为什么要探讨这一点。

假设有k批试验,每一批采用的是双变量相关分析并得到一个相关系数,如何对相关系数进行合并呢?

错误的做法1:直接把k批数据汇总在一次,当做一批,来计算相关系数;

错误的做法2:将k个相关系数加和起来,除以试验批次,求得平均相关系数。

然而,这些统计上不恰当的做法,有着根深蒂固的潜意识中的合理性。

针对做法1,为什么不能视为同一批?这就涉及到你为什么把它们看作不同的“批”。比如,第一组是5月完成的,一代虫;第二组是8月完成的,第三世代的被试昆虫。是你主观认为,它们属于不同的“批”,感到有温度、湿度、世代等广泛的差异,怀疑它们不能直接加和,但又没有测定相关指标的情况下。如果“批”距离相当近,环境非常相似,方方面面都近似一样,那我想你的潜意识中,也不会认为它们是不同的“批次”。因此,当你潜意识中认为,在许多测量过程中存在着异质性,并且可以对测量数据分割为若干类别的情况下,做相关分析就会涉及这篇博文的内容了。

第2种做法的主要缺陷在于,当不同批次试验的样本容量(或者称为重复)相差非常悬殊的时候,这种“硬平均”有着严重的缺陷。这个问题已经在第一篇博文中探讨过。

正确的做法:可以简称为“r-z-z-r”变换。

为了让大家明确下述公式,首先给出各种参数字母的意义。r表示相关系数,k表示总试验批次,r的下角标i是一个在[1,k]之间变动的滑动变量,指的是试验的批次序号,n表示样本容量,e表示自然对数底数。

第一步,将每批测试中的相关系数转化为z值;

第二步,计算加权平均的z值,这个权,大小与每批的样本容量有关系(由于科学网的公式插入功能和word相比还是有缺陷,打不上去z上方的横线“吧”,只好贴出图片)。

屏幕截图 2024-08-23 080044.png

那为什么要用每批测试的样本容量减去3,来作为权,而不是直接用样本容量呢?

不太清楚。

第三步,按下式计算平均相关系数。

屏幕截图 2024-08-23 080431.png

到这一步,“平均相关系数”也就计算出来了。

第4步(可选项),平均相关系数的检验。

屏幕截图 2024-08-23 080838.png

也就是说,前面的t检验,当自由度趋向无穷大的时候,相当于正态近似。



https://blog.sciencenet.cn/blog-3612267-1447797.html

上一篇:Excel数据结构的转型
下一篇:什么是统计学上的拔靴法(bootstrap)?
收藏 IP: 39.162.119.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 14:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部