安静分享 http://blog.sciencenet.cn/u/physicsxuxiao 致远

博文

再说信息论下的文字

已有 4437 次阅读 2013-11-18 00:49 |个人分类:总结与反思|系统分类:观点评述| 信息论

(1)

最近事务繁忙,所以好多网友的意见都没有及时回应,望各位朋友谅解。

(2)

故此,我现在也没办法长篇大论、注意格式地讨论有关问题,仅就有关问题做简单说明,再次致歉。

(3)“熵即不确定性”的含义

从信息论和物理理论来说,这句话是对的;但是在生态学中,“熵”更多是强调其演化趋势的,所以这句话严格讲,是不对的。

那么在信息论和物理理论中,为什么说”熵即不确定性“呢?

”熵“的概念来自克劳修斯,是在研究热力学中的”卡诺循环“的时候提出的。在波尔兹曼提出熵的统计解释的时候,实际上是用的”有序“(order)和”无序“(disorder)来解释世界的变化过程的,他认为在满足一定条件的约束下,系统总是从有序变得无序,系统总是取满足约束条件的最无序的状态,这个最无序的状态,即熵最大的状态。这个”最无序“可以理解为最混乱,也可以理解为”最不确定“的意思。所以,我们说“熵即不确定性”。

而信息论的创始人Shannon创立信息论的时候,关于”信息熵“的概念,据说是听从了Newmann的建议。开始的时候,Shannon想用信息量的概念,但是这个词已经被Hartley用了,而用”平均信息量“词又太长。Newmann建议Shannon,用上”熵“(Entropy)这个词来代表平均信息量。其理由是:Shannon的定义公式明显和Bolzmann以及Gibbs的公式类似,而且和Gibbs的公式比较,除了物理常数,几乎一模一样;另外当时熵讨论比较热,所以用熵这个词非常容易在辩论中立于不败。(也就像科学网上有几位网友一样,总希望通过一个概念,来说明英文比中文优越。)

而关于信息论中”熵即不确定性“是这样解释的:在一个信源发出一个符号前,我们是不知道信源会发出什么符号来,我们只好靠猜。如果我们很容易猜中,那么就说明,我们将收到的信源的信息的平均信息量较低,信源的行为非常确定;反之,如果我们每次都猜不中,或者很难猜中,那么就说明我们一旦收到信源的一个符号,就确定了非常多的事情,信源的平均信息量就大,或者说熵就大,而信源本身的不确定性也就很大。这就像我们讲”女人心思的不确定性大“是一个道理,因为你总是才不透她下一刻想什么,做什么。

这就是我们认为从物理和信息论两个方面,都觉得“熵即不确定性”的讲法是对的。

而很多网友误解了不确定性的意思,甚至将意思理解反了。以为中文的汉字对每个字的熵高,就是每个字表示的意思很不确定的意思:其实其本意是说,我们知道了一个汉字,就知道了跟多的信息。

(4)汉字表意的准确性

抛开我前一篇博文”文字之熵“讲的有一个汉字和一个英文字母比较是否公平的问题,我们也必需搞清楚,汉语表意是否比英语表意更不准确。张能立老师的问题不是一点道理没有。其实要衡量这件事,我们必需假定共同的描述对象,然后分别用中文和英文进行描述,计算其信息量,然后消除信息冗余,再看最后剩下的编码长度,显然对于同样的事物,平均编码偏短的语言,其描述就会粗糙些,或者说更不准确些。

(4)中以上这段话不好懂,我希望有空的时候再展开。但是希望大家明白,我是就事论事,不持立场的。

(5)感谢

感谢张能立老师、张学文老师以及其他网友的有关工作和讨论。

 



https://blog.sciencenet.cn/blog-731678-742636.html

上一篇:【长篇小说】《重大计划》(2)
下一篇:蒋科学在广州
收藏 IP: 202.38.220.*| 热度|

10 李伟钢 曹君君 郑小康 武夷山 刘钢 应行仁 张能立 王国强 马春旺 EroControl

该博文允许注册用户评论 请点击登录 评论 (19 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-23 23:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部