|||
从百分比的平方和到幂律来源等等
张学文2014.11.09注:以下内容我写于2011.12.30,大概计划很大而随后没有跟进,而搁浅。现在权以此标题把此稿贴出,欢迎议论与发展
提要:探讨百分比们(概率分布)的平方和的最小值联系着有益的算法和结果。它与熵最大原理好有一比,并且是幂律形成的一个理论思路。
1. 比值们
身高达到 1.4米的学生占30%。这里的30%是一个比值(0.30)。如果本班(以后称为群体)内各个身高的学生都被统计了。就存在着多个百分比。如
一个班有45个学生,身高为1.4、1.5、1.6的分别为15,17,13。那么我们有三个比值15/45、17/45、13/45。
这类群体我们会遇到很多(如不同温度占有的比值)。属于一个群体内的多个对应比值我们称为比值们,或者百分比们。而它们又联系着大量的所谓概率分布。显然群体内各个比值的代数和应当=1.
1=∑(比值)=∑fi
从概率论角度看,比值们对应一个离散、完备的概率分布。
2. 比值的平方和
有了群体内不同身高的学生数,自然可以计算群体的学生平均身高。现在思想转个弯,以每个学生的身高所属于的对应比值来代替身高本身,自然也可以计算出另外含义的平均值。它就是本群体内各比值的平均值。根据文献[[1],[2]],而不难知道这些比值的平均值恰好是比值的平方和。所以一个群体内各个个体(如学生)属性(如学生身高)占有的比值的平方和具有特殊的意义。于是有
比值的平均值=比值平方和m=∑fi2
用概率语言说,就是离散的诸概率值的平方和就是概率的代数平均值。
3. 信息熵的类比
我们知道,概率(比值)的几何平均值的对数的负值=信息熵,而这里的比值平方和=比值的代数平均值。所以从平均值的角度看,比值的平方和与信息熵具有类似的身份。这使我们考虑:信息熵引出了那么多的有益知识,难道它的弟兄,比值平方和就不值得探讨探讨?下面就是我们的初步探讨。
4. 小试牛刀
一条长为L的绳子,它可以围出一个矩形来。设矩形的宽度=x,显然x/L,就是本问题中的一个比值,而长度显然=(L-2x)/2,长度对应的比值=(L-2x)/2.(宽度、长度值现在直接对应群体内仅存的两个比值)是本问题中的另外一个比值。于是我们就有了本问题中的两个比值的平方和。现在求比值的平方和最小时的x。由于其平方和,m=x2+(L-2x)2/4,通过令它对x的微分=0,不难获得平方和最小时的x值=0.25,于是这个平方和最小所要求的矩形应当是正方形。
这个结果说明比值们的最小平方和所对应的矩形是大家早就知道的相同边长情况下的正方形。“比值平方和最小”导致了面积最大。看来比值平方和最小是一个有利用价值的判断原则。
5. 另外一个例子
王彬的《熵与信息》一书中133-139页有个不同考试分数的学生人数问题。说分数有3种,80,90,100,而且平均值是90分,求在信息熵最大的要求下不同分数的人数。结果是用最大熵求得应当是80、90、100分的学生各占1/3,这意味着熵最大(最复杂)时,各类考试成绩的学生数量相等。
现在我们用不同分数的学生的比值的平方和最大分析它,看看结果如何。
设学生总人数是N,而三个档次的学生人数分别是n1,n2,n3,那么比值的平方和m就是
m=(n1/N)2+(n2/N)2+(n3/N)2,现在求m的最小值,即分别求m对n1,n2,n3,的偏微分,并且令它们等于0,考虑到三个n值的和=N,不难得到三个n值都是N/3,这说明现在求比值最小平方和所获得的结果与最大熵方法获得的结果是相同的。这提示比值平方和最小与熵最大有相同的功能,它们都可以帮助你寻找一个比值的分布。而此比值的分布,也就是离散情况的概率分布。
6. 暂缓一步
我们已经看到一个群体内各个比值的平方和的最小值有一些特殊的价值。现在暂缓深入,而是初步理一下思路。
l 由于比值本身都是小于或者等于1的数,所以它们的平方和只能是大于0,而小于=1的正数。其最大值=1
l 平方和不是个生疏的词,N维矢量的各个分量的平方和对应矢量绝对值的平方
l 最小平方和也不是生疏的词,最小二乘法就是它的重要应用。
l 所以发掘这种特殊平方和的特殊价值是值得的,比值的平方和会有新境界?
7. 转为连续变量的分析
百分比是孤立的数,百分比们是一串数,而且其和=1,这些在概率论的视角下都是离散变量下的语言。现在我们把语言换为连续变量。
于是百分比们就变成了连续变化的所谓概率密度分布函数,而百分比们的平方和m就变成了概率密度分布函数f(x)的平方的积分,m=∫f(x)2dx。于是老问题的新提法变成了这个积分的值最小有什么特别含义?
8. 泛函m的极值…
m是一个数值。它的值依赖一个未知函数f(x),于是数学上称为泛函数。研究它的极值就是所谓变分法的事。利用泛函处于极值这个要求,可以反求f(x)。一般的问题可以利用所谓欧拉方程去求f(x)。而在我们的这个平方和形式的积分情况下,它就简化为下面的等式
(dm/df)=0=2f(x)
于是我们初步获得了函数的平方的积分的最小值应当是函数值始终=0的这个似乎不合理的局面,但是,不要急
9. 关注约束条件!
上面我们勇敢地用了泛函、变分、欧拉方程等概念和技术,获得了连续的概率密度分布函数的平方和如果最小,它就应当=0,但是概率密度是不可能=0的。概率密度本身对自变量的积分就应当=1,所以它的平方和不可能=0.
这使我们注意到求泛函极值时,必须补充进去一个约束,它就是未知函数本身的积分应当=1。此时所谓拉哥朗日乘子法就用上了。
10. 仅带一个约束时的概率分布函数
依拉哥朗日乘子法,我们要求的极值就成为m1,
m1=∫f(x)2dx+λ∫f(x)dx (1)
这里的λ是一个待定常数。现在的问题是f(x)是什么函数可以使m1达到极值。
11. 用欧拉方程求解(1)
原来我们仅要求平方和最小,现在补入了条件λ∫f(x)dx ,而它是常数,不影响求极值。可此时解欧拉方程,容易得到f(x)=c,即分布函数是不随x而变化的常数。或者说概率密度在平方和最小的要求下,它是一个常数。回顾我们对概率分布的认识,这就是指概率分布函数是所谓均匀分布。看,我们已经求得了一个分布函数了,它很简单,是常数!
12. 比比看
我们过去知道在信息熵最大的要求下,可以证明不提出其他要求仅是指出分布函数的积分=1时,该分布函数是均匀分布。现在我们回避了信息熵最大,使用了概率分布的平方和最小的要求,居然也获得了概率分布应当是均匀分布的结论。这是值得深思的。这也算新思路的初步成绩吧。
13. 再补一个约束条件试试看
上面是在仅要求分布函数的积分=1这个附加的合理要求时,平方和最小而获得了均匀分布的结果。现在再补入一个要求:变量的n次方的平均值为常数,看有什么结果。这个要求是数学表达自然是∫xnf(x)dx=c1,于是我们求的极值就是m2达到最小,这里
m2=∫f(x)2dx+λ∫f(x)dx+λ1∫xnf(x)dx
λ1是新补入的常数。求m2对f的微分,并且让它=0,则有
f(x)=-(1/2)(λ+λ1xn)
显然,变量x必须大于0,而λ应当=0,
f(x)=-(1/2)(λ1xn)
这个样子的概率密度分布我们不生疏,它就是时髦的所谓幂律了。
这样我们就在最小平方和的要求下轻易地获得了时髦的幂律分布,它原来是满足最小平方和的一种分布函数!
14. 暂到此为止
我的初步分析到此为止。用这个思路还可以获得那些好处,获得那些新认识?我认为都值得继续探索。
15. 补充
关注“平方和的极值”固然是最近的事,但是概率分布的平方和具有特殊意义的事我在与冯向军讨论组成论时,就从他那里领会和认可了(2004-)。后来他提示tsallisentropy 我也知道一点。最近几天看有关的文章,我的分析大概属于他的q=2的情况。但是他是否看作最小二乘法,是否从特定的平均值思路分析、是否关注和分析了与我类似的问题,我目前不清楚。所以我的这些努力也可能是一种学习,也可能是探新。
张学文2012/1/1于乌鲁木齐
[1]张学文,周少祥:空中水文学初探,146页,2010,气象出版社
[2]张学文,个体通论第四章,http://blog.sciencenet.cn/blog-2024-351291.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 11:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社