||
一、 背景
《测量不确定度表示指南》(英文名称:“Guide to the Expression of Uncertainty in Measurement”) 是国际标准化组织(ISO) 联合7个国际组织于1993年发布的(以下简称《指南》)。1997年,由原先起草《指南》的7个国际组织成立了计量指导联合委员会 (JCGM)(Joint Committee for Guides in Metrology)。JCGM 属下的第一工作组(WG1)从此接手《指南》及其补充文件的撰写、修改、及出版。2008年,JCGM第一工作组对ISO《指南》1995年版本进行了一些小的修改,出版了《指南》2008年版【1】,其后又出版了两个补充文件:GUM-S1【2】和GUM-S2【3】。迄今为止,《指南》2008年版仍然是测量不确定度评估的现行国际标准。《指南》的重要贡献就是建立了测量不确定度评估体系。世界各国测量学界就遵从《指南》来制定本国的测量不确定度表示标准或规范。 可以说,《指南》开创了测量不确定度评估时代。
然而,JCGM 第一工作组以及一些学者认为《指南》中的A类不确定度评估是基于频率学派的观点,而《指南》中的B类不确定度评估是基于贝叶斯学派的观点,因此《指南》在方法论上不自洽。JCGM 第一工作组以及一些学者还认为,《指南》与其两个补充文件在方法论上不协调,因为GUM-S1和GUM-S2采用贝叶斯学派的观点来定义不确定度。2012年,JCGM 第一工作组启动了修订《指南》的项目【4,5】,拟采用贝叶斯统计学对《指南》2008年版进行修订。
二、 《指南》2014年修订版草稿被业界否决
2014年12月,JCGM 第一工作组将《指南》2014年修订版草稿发给了6个JCGM成员国和25个国家的计量研究院,于2015年6月收到了1164条反馈意见,其中大部分是负面意见【6】。Lira【7】对《指南》修订版草稿的部分评论意见进行了综述。他引用了一段评论:“我们认为,若将[不确定度评估]方法完全转为贝叶斯统计,将严重阻碍该指南的应用;最终,还将导致人们对估算及使用测量不确定度的必要性产生较低的接受度。” JCGM第一工作组不得不承认《指南》2014年修订版草稿被业界否决。根据JCGM官方网站2019年5月4日的消息,JCGM 第一工作组放弃了对《指南》的直接修订,仍然保留《指南》2008版作为JCGM的官方文件。但是JCGM 第一工作组仍然不放弃用贝叶斯方法评估测量不确定度,计划以被否决的2014年修订版草稿为基础出版一个独立的、基于贝叶斯统计学的不确定度评估文件。但是时至2026年6月,JCGM 第一工作组仍然未能出版基于贝叶斯统计学的不确定度评估文件。
JCGM 第一工作组通常每年召开两次工作会议,其中一次为面对面会议,通常在 国际度量衡局(BIPM)(法国Sèvres )举行。此外,如有需要,还会召开专门研讨特定议题的在线会议,此类会议通常由部分成员出席。笔者曾受JCGM 第一工作组负集人Walter Bich博士的邀请参加了2019年12月2日举行的关于A类不确定度的专题研讨会(在线参加)。笔者为这个专题研讨会准备了一篇题目为 “不确定度A类评估的另一种方法”的讲稿。因为时差的原因,笔者只参加了下午(当地时间)的会议,由美国国家标准与技术研究院的Antonio Possolo博士在上午的会议代为宣读了笔者的讲稿。
参加2019年12月2日A类不确定度的专题研讨会的成员包括来自新西兰国家标准化实验室的Rod White博士。Rod White博士强烈反对采用贝叶斯方法评估测量不确定度。他在2016年的论文【8】中对《指南》修订提出了五项要求:(1) 简单:不确定度评估不涉及复杂计算,(2) 和谐:修订后的《指南》应与《指南》2008年版基于类似的原理并产生相似的数值结果,(3) 不确定度分析应符合误差理论,(4) 客观概率,(5) 测量不确定度作为对测量结果的最低概要。 Rod White博士认为《指南》2014年修订版草稿未能满足这五项要求中的任何一项【8】。笔者曾与Rod White博士有若干电子邮件往来。Rod White博士在邮件中流露出对JCGM 第一工作组坚持贝叶斯方法的无奈,他坦诚地表示,只要JCGM 第一工作组负集人Walter Bich博士不退休,JCGM 第一工作组就不会放弃贝叶斯方法(尽管贝叶斯方法已经暴露出一些无法解决的问题,见第四节)。
另一位新西兰学者Robin Willink博士也强烈反对采用贝叶斯方法评估测量不确定度。Robin Willink博士在多篇论文【9-12】中阐述了贝叶斯方法的局限性和缺陷。
Willink 和 White在文【10】中将贝叶斯方法的问题归纳为四个层面:哲学层面、计算层面、性能层面,以及“其它” 层面。他们在文【10】的结论中写道:“我们认为,《测量不确定度表示指南》确有修订之必要,但其修订不应遵循贝叶斯学派的理念;相反,修订工作应当回归国际计量局(BIPM)工作组的初衷——正如其报告正文(Kaarls, 1980)中所明确阐述的那样。《指南》的补充文件应当如其设计初衷所示,对《指南》进行补充与完善,从而使计量专家能够应对那些现有《指南》方法难以解决的问题。”
三、 《指南》测量不确定度评估框架的基础及缺陷
《指南》测量不确定度评估框架的基础是纽曼于1935年创立的置信区间理论、学生氏于1908年开创的小样本理论、以及Welch和Satterthwaite发明的有效自由度公式。在《指南》中,扩展不确定度定义为置信区间(confidence interval) 的半宽(仅适用于对称分布)。虽然《指南》遵循频率学派的观点将概率模型的未知参数(即真值)视为固定值(常量),将观测值视为随机变量,《指南》回避使用“真值”和“误差”这两个术语。《指南》首次将测量不确定度划分为A类和B类,不再采用传统测量误差理论中随机误差/系统误差的分类。
在《指南》中, t-区间的半宽定义为A类扩展不确定度。t-区间是最重要的置信区间。但是,t-区间的应用造成了测量不确定度分析的3个悖论【13-16】。笔者于2018年发表了关于 “t-转换扭曲”的论文【15、16】,揭示了“t-转换扭曲”是A类不确定度在小样本时偏差很大的根源。事实上,t-区间被误用于小样本测量不确定度分析【15、16】。因此,《指南》测量不确定度评估框架的缺陷是因为应用置信区间理论和学生氏t分布造成的。
值得注意的是,置信区间理论在1935年刚提出时就受到质疑,当时的著名统计学家费歇尔指出置信区间理论的主要缺陷是“结果的不唯一性”。然而在之后的80多年间,置信区间理论通过统计学教科书得以传播,并且与统计显著性检验一起广泛应用于统计推断。最近几年来,学术界对置信区间的质疑越来越强烈。Morey 等人2016年发表了一篇题目为:“The fallacy of placing confidence in confidence intervals” 的论文【17】,文中指出置信区间理论不是用来进行统计推断的。Morey 等人建议科学界摒弃置信区间。一些学者认为,统计显著性检验和置信区间的应用或者滥用是造成科学发现“可重复危机”的主要原因之一。心理学期刊《Basic and Applied Social Psychology》自2015年开始正式禁止使用统计显著性检验和置信区间【18】,所有在该期刊上发表的论文必须不含有统计显著性检验和置信区间的内容。
四、 为什么贝叶斯方法不适合评估测量不确定度
贝叶斯学派是比频率学派起源更早的统计学学派,迄今已有250多年的历史,但是一直处于非主流地位。 直到最近几十年,贝叶斯学派才在许多科学领域成为主流。尽管贝叶斯方法成功地应用于许多领域(例如社会学、机器学习等),它可能不适合评估测量不确定度。
首先,贝叶斯统计学将实测物理量的真值视为随机变量,这一点有悖于测量学常识,很难被实际工作者所接受。第二,贝叶斯学方法将概率模型的未知参数(即真值)视为随机变量,将具体观测值(数据)视为固定值(常量)。贝叶斯方法要求知道或者假定未知参数的先验分布,然后通过贝叶斯公式将先验分布与根据实测数据构成的似然函数合成得到未知参数的后验分布。扩展不确定度定义为后验分布上的信仰区间的半宽。然而,先验分布的确定颇具主观性,长期以来是一个有争议的话题。第三,贝叶斯方法给出的A类不确定度在小样本时偏差很大,其根源也是“t-转换扭曲”【15、19】。 第四,Wubbeler 和 Elster 【20】证明,贝叶斯 A 类标准不确定度无法满足传递性要求,而传递性是对不确定度评估的一项关键要求。需要指出的是,贝叶斯方法暴露的这些问题无法在贝叶斯统计学范式内得到解决.。
另外,笔者【21】发现应用于连续随机变量的“重构的贝叶斯定理”(reformulated Bayes’ Theorem) 违反了“自洽运算原则”, 这个发现可以解释贝叶斯方法的固有特性:偏差。
事实上,无论频率学派还是贝叶斯学派都承认测验物理量存在一个真值,这个真值是常数,比如万有引力系数就是一个常数。在实际测量中,真值是未知的,否则就不需要测量了。 贝叶斯学派将真值(比如概率模型的位置参数)处理为随机变量, 是出于对于真值认知上的不确定性的考虑,并不是认为真值本身是随机变量。无论是频率学派还是贝叶斯学派,统计推断的目的是一样的,即根据所有可用信息获得真值(常数)的估计值。对于直接测量,基本测量公式为:误差=观测值-真值。误差是公认的随机变量,那么在基本测量公式的右边,观测值与真值两者中必须有一个被“处理”为随机变量,另一个则被“处理”为常量,这样基本测量公式才能够自洽【21】。频率学派将观测值处理为随机变量,真值为常量。而贝叶斯学派将真值处理为随机变量,观测值为常量。但是,无论频率学派还是贝叶斯学派,误差的概念应该是一样的。然而《指南》与《指南》2014年修订版都回避测量误差的概念。
五、 建议:采用“测量误差与不确定度的统一理论”对《指南》进行修订
作为测量科学领域的实际工作者,笔者赞同对《指南》进行修订的必要性。但是笔者反对采用贝叶斯方法。笔者建议采用“测量误差与不确定度的统一理论”(以下简称“统一理论”)对《指南》进行修订。“统一理论”是笔者🆚2018年提出的【22】。“统一理论”将传统误差理论与近代不确定度理论结合起来,保留了两种理论中的合理部分,去除了不合理部分(例如摒弃了置信区间)。
笔者认为经典的误差理论并没有过时。误差理论有其自身的优点。它在统计学和实际应用中有着悠久的历史。随机误差和系统误差都有着明确的物理意义。在许多实际测量中,例如制造商对测量仪器的标定,术语“误差”是不可避免的。但是另一方面,测量不确定度理论也有其自身的优点。《指南》不确定度体系的一大优点是对随机和系统效应导致的测量不确定度给出一致的处理方法。此外,《指南》关于A类/B类不确定度分类在实践中很有用。 因此,“统一理论”恢复使用误差的概念和随机误差/系统误差的分类,也保留了A类和B类不确定度分类。在“统一理论”中,扩展不确定度定义为概率区间的半宽,即“概率误差限”。根据中心极限定理和无偏估计准则进行统计推断,不采用置信区间和学生氏t分布。与t-区间有关的3个悖论随着中心极限定理和无偏估计准则的应用迎刃而解【22、23】。
笔者【24、25】认为《指南》主要存在两个关键问题:(1)《指南》对测量不确定度的两种定义不一致,(2)《指南》计算扩展不确定度的方法有缺陷。第一个问题可以通过将“测量不确定度”定义为基于误差定律的“概率误差限”来解决。第二个问题可以通过计算扩展不确定度的两种替代方法中的任何一种来解决。笔者认为,一方面,修订后的《指南》应该纠正《指南》的缺陷并解决其局限性,从而为实际工作提供更好的指导;另一方面,应尽量减少修订版对《指南》2008年版应用的潜在影响;这两个方面有助于《指南》修订的成功。
参考文献
【1】Joint Committee for Guides in Metrology (JCGM) 2008 Evaluation of Measurement Data - Guide to the Expression of Uncertainty in Measurement (GUM 1995 with minor corrections) Sevres, France
【2】Joint Committee for Guides in Metrology (JCGM) 2008b JCGM 101: Supplement 1 to the ‘Guide to the Expression of Uncertainty in Measurement’—Propagation of Distributions Using a Monte Carlo Method Sevres, France
【3】Joint Committee for Guides in Metrology (JCGM) 2011 JCGM 102:2011 Evaluation of measurement data – Supplement 2 to the “Guide to the expression of uncertainty in measurement” – Extension to any number of output quantities Sevres, France
【4】Bich W et al. 2012 Revision of the ‘Guide to the expression of uncertainty in measurement’ Metrologia 49 702–5
【5】Bich W 2014 Revision of the 'Guide to the Expression of Uncertainty in Measurement' Why and how Metrologia 51 S155
【6】Bich W, Cox M and Michotte C 2016 Towards a new GUM—an update Metrologia 53 S149–159
【7】Lira I 2019 The GUM revision: where do we stand? A personal view 12th International Conference on Measurement 39-46 doi:10.23919/MEASUREMENT47340.2019.8779968.
【8】White D R 2016 In pursuit of a fit-for-purpose uncertainty guide Metrologia 53 S107–24
【9】Willink R 2016 What can we learn from the GUM of 1995? Measurement 91 692-698
【10】Willink R and White R 2011 Disentangling classical and Bayesian approaches to uncertainty analysis, Measurement Standards Laboratory, PO Box 31310, Lower Hutt 5040, New Zealand
【11】Willink R 2022 On revision of the Guide to the Expression of Uncertainty in Measurement: Proofs of fundamental errors in Bayesian approaches. Measurement: Sensors doi: https://doi.org/10.1016/j.measen.2022.100416.
【12】Willink R 2025 On the role of probability in science, analytical measurement and QUAM. Accred Qual Assur 30 245–252 https://doi.org/10.1007/s00769-025-01631-3
【13】Huang H 2010 A paradox in measurement uncertainty analysis ‘Global Measurement: Economy & Technology’ 1970 - 2010 Proceedings (DVD) (Measurement Science Conference)
【14】Huang H 2016 On the Welch-Satterthwaite formula for uncertainty estimation: a paradox and its resolution Cal Lab the International Journal of Metrology 23 20-28
【15】Huang H 2018 Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29 https://doi.org/10.1088/1361-6501/aa96c7
【16】Huang H 2018 Uncertainty estimation with a small number of measurements, Part II: a redefinition of uncertainty and an estimator method Measurement Science and Technology 29 https://doi.org/10.1088/1361-6501/aa96d8
【17】Morey R D, Hoekstra R, Rouder J N, Lee M D and Wagenmakers E-J. 2016 The fallacy of placing confidence in confidence intervals Psychon Bull Rev 23 103-123 https://rd.springer.com/article/10.3758%2Fs13423-015-0947-8
【18】Trafimow D and Marks M 2015 Editorial Basic and Applied Social Psychology 37(1) 1-2
【19】Huang H 2019 Why the scaled and shifted t-distribution should not be used in the Monte Carlo method for estimating measurement uncertainty? Measurement 136 282-288 https://doi.org/10.1016/j.measurement.2018.12.089
【20】Wubbeler G and Elster C 2020 On the transferability of the GUM-S1 type A uncertainty Metrologia 57DOI: 10.1088/1681-7575/ab50d6
【21】Huang H 2022 A new modified Bayesian method for measurement uncertainty analysis and the unification of frequentist and Bayesian inference. Journal of Probability and Statistical Science 20(1) 52-79
【22】Huang H 2018 A unified theory of measurement errors and uncertainties Measurement Science and Technology29 125003 https://doi.org/10.1088/1361-6501/aae50f
【23】Huang H 2020 Comparison of three approaches for computing measurement uncertainties Measurement 163 DOI: 10.1016/j.measurement.2020.107923
【24】Huang H 2022 Practitioner’s perspective on the GUM revision, part I: two key problems and solutions(实际工作者对《测量不确定度表示指南》修订的看法,第一部分:两个关键问题和解决方案) Cal Lab the International Journal of Metrology 29(3) 26-37 DOI: 10.13140/RG.2.2.21127.68009
【25】Huang H 2022 Practitioner's Perspective on the GUM Revision, Part II: Examples and Resolutions to the Ballico Paradox(实际工作者对《测量不确定度表示指南》修订的看法,第二部分:示例和“巴利科悖论”的解决方案) Cal Lab the International Journal of Metrology
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-9 10:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社