||
笔者之前的博文【1】和论文【2】从‘t-转换扭曲’的角度分析了“学生氏t-分布”。笔者最近的论文【3、4】从信息损失的角度评估了“学生氏t-分布”及“scaled and shifted t-分布”。
对于给定的一组数据(例如n个重复测量数据),我们可以得到两个样本统计量的数值:样本均值和标准误(在测量学中称为标准不确定度)。利用这两个数值,我们可以构建关于样本均值的两个备选经验概率分布:scaled and shifted t-分布和正态分布(又称为scaled and shifted z-分布)。那么,这两个备选概率分布哪一个更好?或者我们应该选择哪一个概率分布呢?我们可以从信息损失的角度来评估这两个概率分布。
对香农信息熵的计算结果表明:正态分布的信息熵总是小于scaled and shifted t-分布的信息熵【3】。也就是说,scaled and shifted t-分布总是比正态分布损失更多的信息。根据“最小信息熵准则”,我们应该选择正态分布【3】。
笔者在文【4】中引入了一个称为“信息度”的新概念来衡量信息-概率系统的信息量。信息度可以替代信息熵来评估概率分布。对于给定的数据考虑一组备选概率分布,我们可以认为最佳分布是具有最大信息度的分布。这被称为“最大信息度准则”【4】。对信息度的计算结果表明:正态分布的信息度总是大于scaled and shifted t-分布的信息度。也就是说,scaled and shifted t-分布总是比正态分布损失更多的信息【4】。根据“最大信息度准则” 我们应该选择正态分布【4】。
因此,“最小信息熵准则”和“最大信息度准则”(以及中心极限定理)都支持选择正态分布,不支持选择scaled and shifted t-分布作为样本均值的经验概率分布。
从本质上讲,‘t-转换’将样本误差和标准误的联合分布(二维分布)简化为t统计量的一维分布(学生氏t-分布)。这种“降维”必然损失一部分信息,这通过信息损失分析得到了证明。
参考文献
【1】 黄河宁(2022)关于学生氏t-分布的几点澄清, 科学网,https://blog.sciencenet.cn/blog-3427112-1352436.html
【2】Huang, H. (2018) Uncertainty estimation with a small number of measurements, Part I: new insights on the t-interval method and its limitations Measurement Science and Technology 29 https://doi.org/10.1088/1361-6501/aa96c7
【3】Huang, H. (2023) A minimum entropy criterion for distribution selection for measurement uncertainty analysis, Measurement Science and Technology, 35 (2024) 035014, https://iopscience.iop.org/article/10.1088/1361-6501/ad1476
【4】Huang, H. (2023) A theory of informity, preprint, ResearchGate,https://www.researchgate.net/publication/376206296_A_theory_of_informity
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 17:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社