||
有时由于被试生物来源问题、环境问题、科研条件问题,一个试验需要分为多批来完成。这时,我们如果单独对每批试验的结果进行检验,可能样本容量不够导致检验没有意义。这时,往往会见到2种处理方法:
(1)本为多批次完成的试验,生硬地视为一批完成的;
(2)以每批的样本容量作为权重,计算这些平均数。
但是,这样的方法都未必是科学的。现举例说明一下:
假定要测试一种杀虫剂的杀虫率,分为3批试验,测得的每批平均杀虫率分别是64%、56%、58%。样本容量分别为50、100、120。
当然,大家最有可能想到的方案,就是“生硬地”求平均数,也就是(64+56+58)/3=59.33(%)。
根据上述的博文,这是不科学的,因为最后一次测试,120头,理应比前两批“说服力”更强一些。
下面这样的计算是否正确呢?
(0.64*50+0.56*100+0.58*120)/(50+100+120)=58.37(%)
这并没有将每批试验的组内变异结合进去。
在已知组内方差的情况下,上述的加权法需要进一步修正。
假设上述3批试验的方差分别是0.2、0.1、0.08,则校正后的权重应当是:
这样,求得的权重分别是250、1000、1500。
以这个作为权重,计算加权平均数,所得结果为:
从以上3种算法,得到的平均数分别是59.33%、58.37%、57.82%。
看上去,都在58%左右来回变动,但科研领域,失之毫厘,谬以千里。即使我们不能草率地定义“对”与“错”,也必将存在着哪一种算法最为“科学”的问题。最终的答案,也只能是一个。
第3种算法,很好地将“样本的代表性”“每批试验时的环境条件”结合起来,是计算平均数最优的方法。
这时候,你还会说计算一个平均数,是小学生、初中生都一挥而就的事情?
在随后的博文中,我们会论述分批试验的各种合并方法,包括相关系数的合并、卡方结果的合并、回归方程的合并......
诚然,这些知识都很琐碎,但目前国内并没有一个像样的网站,能够系统地介绍这些知识。但并不是说,这些是不重要的。
比如,当前的粮食丰产工程,就涉及到大量的分批多地试验。我们不希望每个地区绘制一张图或者表,简单把各地的结果罗列、堆砌出来,而是希望得到一个更加一般的结论,这就必须从统计最基础的方面探讨。但不知为什么,科班出身的统计学、数学专业,并没有一个人详细探讨这样的问题,只好由一个搞昆虫学的门外汉来补充了。
“如果你非常想看一种内容的书,跑遍了市场、翻遍的网店,就是找不到。那么,你就去写。”
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 04:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社