|||
最大熵原理所导出的分布其实一般都是极度迷惑人的虚妄相想
美国归侨冯向军博士,2017年8月4日写于美丽家乡
写出这篇文章,我才知道我的勇气有多大而我所面对的势力有多强。
我在不断进行旨在自我否定的思想上的沙盘演习,
不放过任何细节看看能否否定自己。
本文的宣告完成就是宣告《关于决定性事件的概率论》的再次飞跃。
目前我的一些证据包括:
拉格朗日乘数法的自洽性等于最大发生概率P而一般不等于最大信息熵,
最大似然原理(直接用发生概率的对数log(P)最大来确定已知分布的参数,
是距离最大发生概率原理最近的被公认的科学原理,而最大发生概率原理则是直接用发生概率的对数log(P)最大来确定自洽约束条件下的待定分布。),
自然语言处理中的最大概率分词法,
发生概率和广义熵同时最大原理,
Tsallis广义熵让詹尼斯最大信息熵原理的重要预言彻底破产
从而把形形色色的最大信息熵原理的祖师爷赶下神坛,
最大发生概率原理与海量大道之理吻合。
但这远远还不够!本文进行了更具基本性的探索!
我反问:假如信息熵最大就代表广义系统或广义集合的出现概率最大,那么为什么最大似然法不用信息熵作为似然函数来估计已知分布的参数呢?
......
【摘要】在完全相同的约束条件下,一般都存在比最大熵原理所推导出来的分布发生概率大的分布。因此按照最大概率公理,光靠最大熵原理所导出的分布一般都是不可能发生的虚妄相想。之所以说最大熵原理所导出的分布一般都是极度迷惑人的虚妄相想,那是因为分布本身真的发生了。因为这个缘故人们极易听信妖言惑众,以为所发生的分布真的是单凭熵最大的诱导而发生的。其实所发生的分布实际上是在发生概率和熵同时最大的导引下外加一个自洽约束条件而真实不虚地发生的。好在单凭最大熵原理所导出的分布一般都会露出不自洽的破绽,让人们认清最大熵原理的妖相有所真凭实据。对于同一个事实,有正确的观念和虚妄的观念。本文旨在于观念上破迷开悟,弃邪显正。
【再探广义系统的发生概率】
假设广义系统G在n个两两相互垂直的广义方向A1,A2,...,An上有概率分布p1,p2,...,pn。因为p1 + p2 +...+ pn = 1,所以p1,p2,...,pn之间有一定的相关性。不失一般性,总可以视:
p1 = p(A1)
p2 = p(A2/A1)
p3 = p(A3/A1A2)
...
pn = p(An/A1A2...An-1)
这其中,p(A1)是广义系统G在广义方向A1上发生的发生概率。p(A2/A1)是广义系统G在广义方向A1上发生的条件下在广义方向A2上的发生概率。
p(A3/A1A2)是广义系统G在广义方向A1和A2上同时发生的条件下在广义方向A3上的发生概率。
...
p(An/A1A2...An-1)是广义系统G在广义方向A1,A2,...,An-1上同时发生的条件下在广义方向An上的发生概率。
所以,不失一般性,总有广义系统G在广义方向A1,A2,...,An上同时发生的概率或广义系统G的发生概率P满足:
P = p(A1)*p(A2/A1)*p(A3/A1A2)*...*p(An/A1A2...An-1)
或
广义系统G的发生概率P = p1*p2*...*pn (1-1)
【谁才是最基本的描述广义系统发生概率的极值目标函数?】
谁才是最基本的描述广义系统的发生概率的极值目标函数?是发生概率P的对数log(P)还是信息熵E?
log(P) = log( p1*p2*...*pn) (1-2)
信息熵E = log(p1-p1p2-p2...*pn-pn) (1-3)
毫无疑问,发生概率P的对数log(P)是比信息熵E更为基本的描述广义系统发生概率的极值目标函数。这是因为发生概率P是直接描述广义系统G在广义方向A1,A2,...,An上同时发生的概率的重要系统参量。如果连