ymzhao的个人博客分享 http://blog.sciencenet.cn/u/ymzhao

博文

从1到9:数字分布的小门道 精选

已有 8524 次阅读 2022-12-3 14:08 |系统分类:科普集锦


      处于启蒙阶段的孩童就能够数出1到9的一位自然数, 而随着年龄阅历的增长, 人们在生活和实际工作中会碰到各种各样、各种量级的数。一般情况下, 人们可能感觉系统的多样性和复杂性可能导致这9个数字出现在非零首位的概率是相同的.  然而,有心而好事的学者们在100多年前就注意到, 从1到9几个数字出现在数量首位的概率并不是相同的, 这个结果通常称为本福特 (Frank Albert Benford Jr., 1883.07.10-1948.12.04, 见[注释1])定律.    

      本福特定律(Benford's law)是一个关于从1到9几个数字出现在数据非零首位的统计规律. 或多或少地, 这个结果是出人意料的, 与直觉很不一致, 人们一般会认为这几个数字出现在非零首位的几率应该差不多. 然而本福特定律声称, 在许多现实生活中数据的集合中, 首位非零的数字出现的概率不是一样的; 在通常使用的十进制数据中,  首位非零数字是1 的可能性最大(大约为30%), 首位非零其他数字的几率依次递减, 非零首位数字是9的概率不到5%.  这一定律比较严格的表述是: 数据集合内所有数据的首位非零数字d (d=1, 2, ..., 9) 出现的概率

image.png

这个概率分布具有标度不变性,  即如果满足本福特定律的数据集合换算成其它进制b, 那么首位非零数字d 出现的几率为 

image.png

这其实不难想象, 我们把原来的单位是米的统计数据换一个单位, 例如换成英尺, 那么统计数据的分布应当是不变的,  满足这种标度不变性数据的分布应当是某种对数分布, 而本福特定律正是一种对数分布. 

历史上最初指出这个事实的是纽科姆 (Simon Newcomb, 加拿大-美国天文学家、数学家, 1835.03.12-1909.07.11, 见[注释2]), 他在使用对数表时注意到从数字1到9出现在首位频率不一样,而首位是1的那些页面有更多的使用痕迹.  他在1881年在美国数学杂志上发表了相关结果(见[注释3]).  1938年本福特测试了20个不同领域的数据,其中包括335条河流面积、3259 个地区人口数量、104个物理学产生、1800个分子质量等共20000 多个数据,  首位非零数字满足前面提到的指数分布[见注释4], 本福特本人也因对于这一规律的"重新发现和推广"而闻名. 当然, 基于历史实际情况, 也有很多人把这一规律称为Newcomb–Benford law.   

我们下面举例说明本福特定律普遍性以及在生活工作中十分有趣而丰富的应用. 

1972年瓦里安(Hal Varian, 1947.04.18-, 美国经济学家) 提出利用本福特定律检查支持某些公共计划经济数据是否存在欺瞒. 1992年尼戈里尼在他的博士学位论文中再一次提及这个应用 (见[注释5]). 捏造数字的人倾向于相当均匀地分布他们的数字, 因此如果将数据中的第一位数字频率分布与预期分布进行简单比较, 只要首位数字出现频率与预期结果存在很大不同, 这个数据就应该令人怀疑. 在著名的安然公司造假案[见注释6]中, 他们的账本就不满足本福特定律.   尼戈里尼也以本福特定律的应用而闻名(见维基百科网页https://en.wikipedia.org/wiki/Mark_Nigrini). 

        本福德定律也多次用于检验政治选举是否造假的辅助方法. 美国媒体曾利用这个方法用推断2009年伊朗大选存在“欺诈”. 根据《华盛顿邮报》的报道, 伊朗省级选举中7出现在首位的概率超过15%、而5出现在首位的概率为4%, 不符合本福特定律.  而在他们认为比较干净的2008年奥巴马的选举中,靠后数字出现在首位的概率没有超过14%.  不过, 在利用本福特定律方面也会出现“双重”标准: 在2020年美国总统选举中, 乔-拜登在芝加哥、密尔沃基等地选举结果统计数据中第一位数字的分布并不遵循本福德定律(见[注释6]);  特朗普的支持者以此为由, 认为拜登数据造假, 出现过一些争执. 剑桥大学出版社官网一篇论文《本福特定律和侦查选举舞弊》报道说, 通过生成一系列的人工模拟数据后, 本福特定律无法为可能的选举欺诈提供法律依据 (见https://doi.org/10.1093/pan/mpr014).

      在2022年3-5月份, 上海遭遇新冠疫情而实施静态管理措施,  各区每天通报新冠确诊病例数.  后来有人把2022年3月19日至2022年5月20日期间各区公布的新冠病毒确诊的数据首位数字进行统计, 结果显示上海官方发布的疫情数据比较好地满足本福特定律(见[注释6]).

不太可笑而有趣的是, 从1938年至2007年有许多文章研究本福特定律, 这些文章数量随着年份快速增多, 各年份发表本福特定律相关文章的数量首位数字也近似满足本福特定律.

      在自然科学中, 满足本福特定律的实例很多. 例如在数学中一些著名的整数数列在渐进极限的情况下可以证明完全满足本福特定律,包括斐波拉契数列、阶乘数列、2的幂次数列以及其他书的幂次数列. 以2的幂次数列为例,假如在这个数列中取96个数的首位数字(1、2、4、8、1、3、6、1、2、5、1、2、4、8、1、3、6、1.....), 统计从1到9出现的次数, 容易看到非常接近本福特定律.   在物理学期刊论文中, 有不少文章检验某些物理量是否满足本福特定律. 已经知道物理常数、复杂原子光谱中电偶极矩跃迁强度、强子宽度与寿命、脉冲星中的功率与运动.  在核物理中, 不稳定核的alpha 衰变和 beta 衰变的半衰期、原子质量评估表编辑的单中子分离能、双中子分离能、beta衰变能、电子俘获质子过程能量等物理量符合本福特定律.  北大BQ Ma、南大/同济ZZ Ren、上海海事大学H Jiang等有多篇相关文章. 本文在后面列出部分相关参考文献, 供有闲的读者们浏览(见[注释7]).  

      本福特定律很适用于跨越若干数量级的数据, 数据均匀覆盖的数量级越多,适用就越好; 而数据集合到底适用或不适用这个规律并没有一个明显的界线, 随着数据分布范围越来越小, 偏差逐渐增加.  而至于为什么某些物理量或者其它量特别满足本福特定律, 或者满足这个统计规律说明了什么,  在以物理机制作为主要追求目标的研究中是应该多问几句却往往难以回答清楚的.   那么, 本福特定律到底有没有一个理论基础呢? 据报道, 有人基于所谓Krieger–Kafri 熵或其它概念做了一些论证[部分文献见注释8]. 

总之, 本福特定律就像其它统计规律一样, 有这么多不同系统的数据都能满足, 本身是一个奇特的、可能并没有完全被认知的”现实”, 不妨作为一个有闲者雅俗共赏的聊天谈资. 

 

本文作者:寿嵘(上海交通大学研究生)、赵玉民(上海交通大学教授)

 

 

[注释1]本福特(Frank Albert Benford), 美国电子工程师、物理学家, 重新发现和推广最初由纽科姆发现的首位非零数字规律而著名. 本福特1937年设计了一种测量折射率仪器而闻名, 是光学测量方面的专家

[注释2] 在历史上纽科姆在光速测量方面曾经是主要玩家. 著名的迈克耳孙-莫雷实验的主要贡献者迈克耳逊曾经与他密切合作. 据说迈克耳逊1880 年的结果与纽科姆的测量结果相差很多, 后来迈克耳逊改进了实验, 1883年的结果与纽科姆的结果很接近纽科姆教女有方, 有二个女儿(Anita Newcomb McGee, Anna Josepha)获得了许多重大荣誉(详略), 他的外孙 Hassler Whitney 是一名数学家陈省身先生曾撰文纪念过 Whitney 教授, Proceedings of the American Philosophical Society. Vol. 138, No. 3 (Sep., 1994), pp. 464-467.

[注释3] S. Newcomb. Note on the frequency of use of the different digits in natural numbers". American Journal of Mathematics. 4 (1): 39–40 (1881).

[注释4] Frank Benford. “The law of anomalous numbers”. Proc. Am. Philos. Soc. 78 (4): 551-572 (1938).  

[注释5]  Mark J. Nigrini. "The Detection of Income Tax Evasion Through an Analysis of Digital requencies". Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.  

[注释6] 这里列几个数据或事件相关网站, 读者们可能感兴趣:

1安然事件:https://baike.baidu.com/item/安然事件/2875381#5

2美国大选数据ahttps://benford2020.com

3美国大选数据bhttps://kgithub.com/cjph8914/2020_benfords

4上海疫情数据:https://github.com/lewangdev/shanghai-lockdown-covid-19

  [注释7]  这里列举一些参考文献供大家浏览

1. The Newcomb–Benford law: Scale invariance and a simple Markov process based on it: American Journal of Physics: Vol 89, 851(2021).

2. Benford’s law: A Poisson perspectivePhysica A: Statistical Mechanics and its Applications 392 (16), 3360 (2013).

3. M.AusloosC.HerteliuB.Ileanu. Breakdown of Benford’s law for birth data. Physica A: Statistical Mechanics and its Applications, Volume 419, 2015, pp. 736-745.

4. Miller, S. J. (Ed.). (2015). Benford’s Law: Theory and Applications. Princeton University Press. http://www.jstor.org/stable/j.ctt1dr358t

5. L.J. Shao and B.Q. Ma, First digit distribution of hadron full width, Modern Physics Letters A, Vol. 24, No. 40 (2009) 3275-3282; L.J. Shao and B.Q. Ma, The significant digit law in statistical physics, Physica A: Statistical Mechanics and its Applications, Vol. 389, No. 16 (2010), 3109-3116.

6.  Ni, D., Ren, Z. Benford's law and half-lives of unstable nuclei. European Physical Journal A, 38 (3), pp. 251-255 (2008); Liu X.J, Zhang X.P, Ni D.D, Ren Z.Z. Benford's law and cross-sections of A(n, α)B reactions. European Physical Journal A  47, 1-6(2011).

7. Pain, J.-C. Benford's law and complex atomic spectra. Physical Review E77 (1),  012102 (2008).

8. Buck, B., Merchant, A.C., Perez, S.M. An illustration of Benford's first digit law using alpha decay half lives. European Journal of Physics, 14 (2),  59-63 (1993).

9. H. Jiang, J. J. Shen, Y. M. Zhao,  Benford's law in nuclear structure physics.  Chinese Physics Letters 28(3),032101 (2011); X. L. Tang, H. Jiang, J. J. Shen. Astrophysics and Space Science Vo. 364 (10), 164(2019).

 [注释8] Jolion, Jean-Michel. "Images and Benford's Law". Journal of Mathematical Imaging and Vision. 14 (1): 73–81  (2001); L. Pietronero, E. Tosatti, V. TosattiA. Vespignani. "Explaining the uneven distribution of numbers in nature: the laws of Benford and Zipf". Physica A. 293 (1–2): 297–304 (2001);  Don S. Lemons."Thermodynamics of Benford's first digit law". American Journal of Physics. 87 (10): 787–790  (2019); Zhaodong CaiFaust Matthew, A. J. Hildebrand, Junxian Li, Yuan Zhang"The Surprising Accuracy of Benford's Law in Mathematics". The American Mathematical Monthly. 127 (3): 217–237  (2020); M. S. Cong, C. Q. Li, B. Q. Ma. First digit law from Laplace transformation. Physical Letters A 383 (16), 1836 (2019) 



 




https://blog.sciencenet.cn/blog-3404169-1366364.html

上一篇:朝花夕拾
下一篇:核科学群英谱(20):“中华脊梁” 邓稼先
收藏 IP: 101.224.227.*| 热度|

1 谢钢

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 19:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部