liweizheng1978的个人博客分享 http://blog.sciencenet.cn/u/liweizheng1978

博文

最简单的也是最困难的——值得思索的第一个统计问题

已有 165 次阅读 2024-8-21 23:05 |个人分类:统计学|系统分类:科研笔记

在形形色色的生态学调查中,一般涉及到“五点取样”法。我们习惯于将5个样方的调查值加和起来,除以5,得到一个平均值。

这已经成为一个司空见惯的、最为基础的统计问题,一般而言,科研人员并不会怀疑它的绝对正确性,正像我们界定的α=0.05的显著性水平一样。

然而,就是这个简单的问题,在实践操作中却并不那么简单,如果你肯利用极限化的思维看待这个现象的话。

例如,国家大田药效试验标准、农业外来入侵生物普查方案的制定,就涉及到了这样的问题。

举个例子,“五点取样”,首先意味着5个样点的选择,应是某种规则制约下的随机。换言之,一块大田,你不能抱有某种期望,比如玉米螟的调查,“一头也没有发现”“0头”是一个令人泄气的结果,或者说,在潜意识中,我们是失望的、泄气的。那么,遇到这种情况,是不是要就近换一个样方,直到某种靶标生物调查到为止呢?

当然不能!否则,取样便失去了随机性!也就是规划好了方案,就需要严格执行,哪怕有一头昆虫正有一种从相邻样方迁移到调查样方中的趋势!

在农业外来入侵生物普查中,国家制定的标准是这样的:采用五点取样的方法,调查一下5个样点中每个样点的植株总数,核实一下外来种的数量,计算一个百分率。5个样方的百分率平均起来,作为某次样地调查的结果。

这种方法从统计学的角度来看,有回避不了的2个难题:

(1)对于入侵植物的调查,我们用入侵种的株数,除以样方中的总株数,固然是可以的。但是,针对病虫害而言,这个“分母”不应当是“一个样方中的植株总数”,而应当是“农作物的株数”。分子部分则是“携带外来入侵病虫害的农作物株数”。也就是,在病虫害普查时,你必须忽略一个样方中除了农作物之外的其他一切杂草等。

(2)如果我们设计了5个样方,却发现由于干旱等原因造成缺苗断垅,每个样方中的植株数差异较大。怎么办呢?是不是还可以这样把百分率平均起来?

为了简化这个问题的解释,我们只考虑两个样方的平均化问题,并且极端化处理,便于大家的理解。

样方1有100株植物,99株入侵种;样方2有50株植物,一共25株入侵种。

此时,按照国标的算法,应当是(99/100+25/50)/2=74.5%。

可是,还有一种算法是:(99+25)/(100+50)=82.67%。

哪个更能反映现实呢?很显然是第二种算法。因为,第一个样方中总植株数远多于第2个样方,理应在计算中被赋予更大的“权重”。如果直接将百分率平均化,相当于一视同仁地看待这两个样方,显然是不合理的。

这说明,整个统计学,需要从最基础的部分——平均数——潜心去分析,才能触及问题的核心。否则便会得到啼笑皆非的答案,比如一个地区新冠感染了100人,死亡99人;另一个地区感染了2人,死亡1人。将致死率平均化处理,则是75%左右。很显然,这样的计算方式是不能代表“新冠致死率”这个整体趋势的。

随后的网文中,我们会用相当大的篇幅,专门讨论多批次、多时段生物测定数据的平均化问题。



https://blog.sciencenet.cn/blog-3612267-1447610.html


下一篇:最简单的也是最困难的——多批次试验平均数的合并
收藏 IP: 39.162.115.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-8-22 15:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部