liweizheng1978的个人博客分享 http://blog.sciencenet.cn/u/liweizheng1978

博文

最简单的也是最困难的——多批次试验平均数的合并

已有 1761 次阅读 2024-8-22 07:10 |个人分类:统计学|系统分类:论文交流

有时由于被试生物来源问题、环境问题、科研条件问题,一个试验需要分为多批来完成。这时,我们如果单独对每批试验的结果进行检验,可能样本容量不够导致检验没有意义。这时,往往会见到2种处理方法:

(1)本为多批次完成的试验,生硬地视为一批完成的;

(2)以每批的样本容量作为权重,计算这些平均数。

但是,这样的方法都未必是科学的。现举例说明一下:

假定要测试一种杀虫剂的杀虫率,分为3批试验,测得的每批平均杀虫率分别是64%、56%、58%。样本容量分别为50、100、120。

当然,大家最有可能想到的方案,就是“生硬地”求平均数,也就是(64+56+58)/3=59.33(%)。

根据上述的博文,这是不科学的,因为最后一次测试,120头,理应比前两批“说服力”更强一些。

下面这样的计算是否正确呢?

(0.64*50+0.56*100+0.58*120)/(50+100+120)=58.37(%)

这并没有将每批试验的组内变异结合进去。

在已知组内方差的情况下,上述的加权法需要进一步修正。

假设上述3批试验的方差分别是0.2、0.1、0.08,则校正后的权重应当是:

这样,求得的权重分别是250、1000、1500。

以这个作为权重,计算加权平均数,所得结果为:

从以上3种算法,得到的平均数分别是59.33%、58.37%、57.82%。

看上去,都在58%左右来回变动,但科研领域,失之毫厘,谬以千里。即使我们不能草率地定义“对”与“错”,也必将存在着哪一种算法最为“科学”的问题。最终的答案,也只能是一个。

第3种算法,很好地将“样本的代表性”“每批试验时的环境条件”结合起来,是计算平均数最优的方法。

这时候,你还会说计算一个平均数,是小学生、初中生都一挥而就的事情?

在随后的博文中,我们会论述分批试验的各种合并方法,包括相关系数的合并、卡方结果的合并、回归方程的合并......

诚然,这些知识都很琐碎,但目前国内并没有一个像样的网站,能够系统地介绍这些知识。但并不是说,这些是不重要的。

比如,当前的粮食丰产工程,就涉及到大量的分批多地试验。我们不希望每个地区绘制一张图或者表,简单把各地的结果罗列、堆砌出来,而是希望得到一个更加一般的结论,这就必须从统计最基础的方面探讨。但不知为什么,科班出身的统计学、数学专业,并没有一个人详细探讨这样的问题,只好由一个搞昆虫学的门外汉来补充了。

“如果你非常想看一种内容的书,跑遍了市场、翻遍的网店,就是找不到。那么,你就去写。”



https://blog.sciencenet.cn/blog-3612267-1447631.html

上一篇:最简单的也是最困难的——值得思索的第一个统计问题
下一篇:什么是“预防为主,综合防治”?
收藏 IP: 39.162.115.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 04:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部