新概念测量理论之科普杂文系列分享 http://blog.sciencenet.cn/u/yeses 传统测量理论曲解了概率论概念,测量概念的辩论需要以纯正的概率论概念为基准。

博文

标准偏差概念,您确定很理解它吗?

已有 28898 次阅读 2016-6-13 11:39 |系统分类:论文交流| 误差, 精度, 不确定度, 标准偏差

标准偏差概念,您确定很理解它吗?

武汉大学 叶晓明

论文《The new concepts of measurement error theory》(Measurement, Volume 83, April 2016,Pages 96–105)的早期中文版曾投往国内某权威测量学报,其中有一段关于精度(精密度,precision)概念并非发散度的论述,强调单一测量结果并不存在离散问题。但是,这个版本却被审稿人直接以现有文献为依据给否定了,审稿人认为我连测绘学的精度概念都没有理解清楚。

也许您也会说,精度可不就是测量结果的发散度吗?现有教科书、测量标准(包括国际标准)等不都是把标准偏差解释成分散度或分散性吗?那么,我这里只能很遗憾地告诉您,您也没有真正理解标准偏差的概念内涵。而且,不仅您,当前测量界真正正确地理解这个概念的人并不多。教科书、测量标准(包括国际标准)等都把标准偏差解释成了测量结果的分散度或分散性,恰恰就说明了这个事实。

标准偏差是概率论中的概念,其定义就是σ2=E(X-EX)2。在现代测量中,既用它表达精度(精密度),又用它表达不确定度。但无论是精度还是不确定度,人们的思维总跟“离散度”、“发散性”纠结在一起,这些字眼在精度和不确定度的概念定义中都能看到。虽然有些学者已经注意到一个唯一的测量结果没有发散性问题,却又想当然地把它理解成未来重复测量结果的发散度,这仍然是个错误的理解。

标准偏差的概念解释是现有测量理论的一大败笔,作者在《现有测量学理论的几大败笔》(http://www.sciencenet.cn/dz/showdz.aspx?id=937)中也曾以珠峰高程结果8844.43米、标准偏差±0.21米为例指出过这个问题:

1、一个唯一的8844.43是没有发散之说的。

2、也不能解释成未来同样测量条件下重复测量结果序列的发散度。因为如果同样测量条件下重复测量,重复测量中各种测量条件(包括仪器内外各种环境条件、操作者的主观条件等)都保持绝对不变(这实际不能实现),那必然是,每个测量的误差形成过程一模一样,测量结果将永远是8844.43同一结果,测量结果序列也就不可能发散,离散度当然就是0。但每个结果的标准偏差却都仍然还是±0.21,因为每个测量过程都是一模一样。

3、也不能解释成未来不同测量条件下重复测量结果序列的发散度。因为如果每次按不同条件进行重复测量,测量结果虽然会表现离散,但那跟当前的标准偏差没有联系。如果测量条件变化太随意,结果序列必然过分离散;如果测量条件变化太少,离散度又将非常小;究竟多少变化条件刚好使离散度正好是±0.21米?只有天知道。

用珠峰高程做实验不现实,但用一个电子秤做个称重实验总还容易实现。用电子秤的MPE(最大允许误差)做依据分析出其称量的某个重物重量的标准偏差,然后分别用同样条件、不同条件重复测量试试看?看看重复测量的分散度跟前边的标准偏差能吻合否?

那么,标准偏差概念的正确解释究竟应该是怎样的呢?

首先,我们得看看概率论是做什么的。很显然,概率论研究的是一个未知事件的概率。一个已知事件是不存在概率问题的,一批已知事件也同样不存在概率问题,事件都已经是确凿已知的那还有什么概率可谈呢?

其次,一个未知事件一定只能只有一个结果,如果这个事件的演变过程的来龙去脉规律都被人类完全掌握,那么这个结果就完全可以推定出来,就当然也不需要概率论了。而事实是,人类对各种自然规律的掌握只能做到有限,仍然有许多微观细节的过程不能完全掌控,这些没有掌控的过程是模糊不确定的,或者已经掌控的过程中仍然存在没有完全掌控的模糊成分,甚至人们有时还有意地对已经掌握的规律过程也按模糊过程来处理。这些模糊的过程条件对结果的概率区间的影响毕竟都是有限的,这就是人类研究概率论的原因。就是说,事件结果未知不确定的根源是过程的模糊不确定,模糊不确定的过程条件当然就不能扯什么“同样条件”字眼了。谁能保证硬币的从抛出到着地的所有条件过程每次都是一模一样?

那么,概率论是如何对一个未知事件的概率进行研究的呢?答案是,实验统计和原理分析相结合。根据硬币二面等概率原理推定抛掷试验中各面朝上概率是50%,这就是原理分析;而根据大量抛掷实验进行统计得出各面朝上概率是50%,这就是实验统计。而诸如方差传播律等也是原理分析方面的重要规律。

标准偏差的概念定义σ2=E(X-EX)2表达的实际就是一个实验统计原理而已,通过对一批已知测量结果的离散性进行统计分析,评价其中任意一个测量结果单独发生时所存在的概率区间,这才是分散性和概率的对应关系。获得一个测量结果序列{Xi}(实验样本),通过σ2=E(X-EX)2计算出标准偏差σ,这样,对于任意一个独立发生的测量结果Xi来说,它就一定存在于一个以EX为数学期望以σ为标准偏差的概率区间内。就是说,当任意一个独立的测量结果Xi被给定了以后,独立测量结果与数学期望之差Xi-EX是个恒差,这个恒差存在于一个以0为数学期望以σ为标准偏差的概率区间内。也就是说,标准偏差σ是误差Xi-EX所存在的概率区间的评价值,它表达误差Xi-EX在概率区间内各点都有存在的可能,只是概率各不相同。但请特别注意,这并不是说误差在概率区间内随时间随机不停地变化——绝对不可以这样偷换概念!

因为测量结果序列{Xi}的获取过程是存在模糊条件的,每一个Xi的形成条件都实际上存在差异,未来的测量条件与当前测量条件无法建立确凿的比拟关系,我们自然不必要把当前的标准偏差和未来的测量结果纠缠在一起说事。我们只需说,在当前已有的n个Xi样本中,任何一个独立样本与数学期望之差Xi-EX的标准偏差都是σ。这就足够了。未来的测量自然有未来的测量结果,自然也会有它相应的标准偏差评价,是另外一回事情。

而进一步的事实是,当人们在测量实践中获取了n个离散的测量结果Xi的时候,这时必须按照一定的准则给出最佳唯一测量结果(测绘学叫平差)。譬如:按最小二乘原理可得出最佳唯一测量结果为其均值Y=(X1+X2+…+Xn)/n,根据方差传播律,这时唯一测量结果Y与数学期望之差Y-EX的标准偏差就是σ/n了。

最终唯一测量结果与数学期望之差是个未知的恒差,这个恒差的大小程度用标准偏差来描述,标准偏差是一个含有概率意义的误差存在范围的概念,这才是标准偏差的概念实质。人们过去的误区就是只注意到分散性统计,甚至跟什么白噪声等联系起来,而忽视了分散性统计的真实目的——评价一个测量结果的一个未知误差的概率区间。把标准偏差、精度、不确定度等定义为分散性评价自然就不妥了。

现在,测量结果与数学期望之差——所谓的随机误差是个未知的恒差,这个恒差的大小程度可以用标准偏差来评价。那么,一个更进一步的问题是,数学期望与真值之差——所谓的系统误差也是个未知的恒差,是否也可以用标准偏差来评价呢?答案当然是肯定的,这只需站在造成这个恒差的上游测量的角度看问题即可,而所有上游测量那里的测量统计分析的过程和当前测量过程在本质上实际是完全相同的。

当您理解到这里的时候,请接受我的欢迎,您已经走上了我的新概念误差理论的主体思路:误差都是恒差(站在给定测量结果的角度)、都遵循随机分布且都有标准偏差评价其概率区间,误差不存在是否遵循随机分布的系统和随机类别之分;误差合成——代数法则,标准偏差合成——概率法则;精度、正确度和准确度就该作废了,不确定度就有了很明确的概念内涵了。珠峰高程结果与其真值之差是个未知的恒差,这个恒差存在于一个标准偏差为±0.21米的概率区间内,仅此而已。

2016 6 12于武汉大学





https://blog.sciencenet.cn/blog-630565-984290.html

上一篇:原理误差的概念之争
下一篇:一道让测量界瞠目结舌的误差理论题目
收藏 IP: 116.216.8.*| 热度|

3 陈新 王林平 ron1969

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 11:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部