heninghuang的个人博客分享 http://blog.sciencenet.cn/u/heninghuang

博文

如何将n个独立信息源的信息汇总?

已有 3990 次阅读 2020-11-4 13:36 |个人分类:统计推断与概率|系统分类:论文交流

一、“信息汇总定律”

假定我们有n个独立的信息源,每个信息源发出的信息x可以表征为一个连续的随机变量,其概率密度函数是p(x)。比如n个实验室各自独立地测量万有引力常数G。每个实验室(信息源)的测量都会有误差(或者不确定性),因此测量结果G是一个随机变量。则任一信息源关于x的香农信息量为:

I=-log[p(x)]         (1)

为了得到更为可靠的信息,我们可以根据“信息汇总定律”n个独立信息源的信息汇总【1】:

image.png

因此,可以认为(修正的)连续随机变量的贝叶斯定理只是“信息汇总定律”应用的一个特例。

作为“概率分布合成定律”(也即“信息汇总定律”,因为两者是等价的)应用的实例,笔者利用Mohr et al. 3】报告的14个实验室独立测量万有引力常数G的结果计算了“约定”G值和相应的标准不确定度(详见【1】)。

二、对立事件信息源的信息汇总

考虑两个对立的事件A和B。事件A和事件B发生(或者预测发生)的概率分别为 P(A)和 P(B),且有P(A)+P(B)=1。这里只考虑事件A。假定我们有n个独立的信息源(比如n个预测专家给出事件A发生的概率),则任一信息源的事件A的香农信息量为: 

I=-log[P(A)]         (6)

可以应用“信息汇总定律”,式(2),将n个独立信息源的关于事件A的信息汇总。如果只有两个独立的信息源,汇总后事件A概率的计算公式为:

image.png

注意到式(7)与基于条件概率的贝叶斯定理很相似。但是(7)没有涉及条件概率的概念。

利用式(7)可以解答科学网博客曾经激烈讨论过的一个概率问题:“王宏检验结果是阳性,问王宏是真正有病的概率是多少?”(见:http://news.sciencenet.cn/news/sub26.aspx?id=2958)。对于这个问题,式(7)给出的结果与利用贝叶斯定理得到的结果是一样的。但是基于香农信息量概念得到的式(7)比基于条件概率概念得到的贝叶斯定理更容易理解。

【1】 Huang, H. (2020).  Two simple and practical frequentist methods for combining prior information with current measurement in uncertainty analysis. Cal Lab the International Journal of Metrology, 27(3), 22-32.  available on ResearchGate: https://www.researchgate.net/publication/344502279_Two_simple_and_practical_methods_for_combining_prior_information_with_current_measurement_in_uncertainty_analysis

【2】Huang, H. (2020).  A new Bayesian method for measurement uncertainty analysis and the unification of frequentist and Bayesian inference, preprint, DOI: 10.13140/RG.2.2.35338.08646, available on ResearchGate: https://www.researchgate.net/publication/344552280_A_new_Bayesian_method_for_measurement_uncertainty_analysis_and_the_unification_of_frequentist_and_Bayesian_inference?channel=doi&linkId=5f7fd8a5458515b7cf71d5ec&showFulltext=true

【3】Mohr, P. J., Taylor, B. N. and Newell, D. B. (2012). CODATA recommended values of the fundamental physical constants: 2010. Rev. Mod. Phys. 84 1527605



https://blog.sciencenet.cn/blog-3427112-1257052.html

上一篇:为什么连续随机变量的贝叶斯定理可能是错误的?
下一篇:为什么创新论文发表难,而创新成果推广更难?
收藏 IP: 104.63.253.*| 热度|

2 尤明庆 宁利中

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 05:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部