||
统计概率分布公式们体现着熵最大(最复杂原理)
张学文,2021 12 07
在前面的博客https://blog.sciencenet.cn/blog-2024-1315112.html 中我们着重说明了自然界与社会现象中存在很多的非“物理量”。而对它们的定量分析一般地说经典的物理学定律一时还插不上手,而统计学却帮助它们体现了规律性,给出了漂亮的数学公式。这为数学公式扩展了应用领地。
这里我们从另外的角度分析某些统计公式却经常体现在你所统计的对象总体中,这里给出一种理论说明:原来它们(各种统计分布函数)是最大熵原理,热力学第二定律,最复杂原理的体现!
设想有一根长度为L的绳子,我们完全随机地砍上999刀(其他的数量也可以),结果就获得了1000段线头。现在问不同长度的线头各有多少?
这显然是一种随机性很强,每次结局不同的实验。但是从统计角度看,不难发现每次的这种实验结局都是小线头最大,特别长的线头很少很少。不同长度的线头占有的相对数量(百分比)总是服从数学中著名的负指数分布!
一位从事样本采集的科技人员,如果发现了1000个样本中某指标为不同值的样本数量与该指标值是负指数关系(或者是正态分布等等),一定很高兴。一般地说如果前人没有做过类似分析,而你却从分析中获得一个漂亮的函数。这是可以发一篇含义数学公式的文章的。
但是一般的统计学不进一步说明这些样本为什么服从例如负指数分布等等。--可我们有权利追问,这究竟是为什么???
也许对此问题的最古老,最深刻的答案是19世纪由玻尔兹曼发现的一个认识思路。他在认可气体由分子组成,气温代表气体的动能,而在各个分子的动能可大可小完全随机的条件下(总能量确定,总分子个数确定),他得出结论不同动能的分子个数服从负指数分布。而这可以理解为是概率最大的分布。--也许正是这种深刻的认识,导致了“统计力学”的确立。
斩乱麻问题是我在上世纪分析的一个问题(后来刊于一个数学杂志上),它的物理模型比19世纪玻尔兹曼的负指数模型简单,但是道理相同,假设等价。从目前的统计学角度看,它对统计分布符合负指数函数给出了物理说明(高概率的情况最容易出现--最大可能分布)。
20世纪的一个重要理论建树是信息论。而信息论里的信息熵等价于概率的几何平均值。在这种视角下,玻尔兹曼统计分布对应着信息熵最大。
而信息熵最大也对应着热力学第二定律。热力学第二定律则被认为是宇宙的基本规律(宇宙总是从小概率(特殊)状态走向高概率(常见)状态)。
这面对着我们经常分析的各种概率(也是统计)分布函数,以上认识是什么意思呢?
显然我们自然而合理的认识是:
我们经常遇到的一些统计分布函数之所以经常出现,原来它们都是热力学熵第二定律的特定场合的体现。(高概率的状态是最容易出现的状态)
这样的认识,使得概率统计的物理学基础加固了一层。它也让神秘的熵原理从束之高阁的理论殿堂变成了我们经常遇到的各种统计分布问题的理论基石。
这样说来统计分布所有常见是有理论依据的—最大熵原理或者说最复杂原理(复杂程度最高的事情出现机会最高)
这样说来,统计学把神秘的热力学第二定律请入了我们的日常社会现象之中。
是的,统计概率分布公式们体现着熵最大熵(最复杂原理)。最大熵竟然是统计分布处处可见的根!
(补白,这个逻辑链的细节在一个博客中难以仔细展开,欢迎有兴趣者参考我的《组成论》一书(2003年中国科学技术大学出版社),或者我的博客分目录 https://blog.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&classid=1679&view=me&from=space 中的一些说明。)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 01:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社