lix分享 http://blog.sciencenet.cn/u/lix

博文

与徐晓博友商榷:关于汉字的信息熵

已有 6470 次阅读 2013-10-28 17:06 |个人分类:生活点滴|系统分类:生活其它| 信息, 汉字

徐晓博友博文 文字熵的简述 总的来说,是一篇好科普。但是,跟时髦潮流一样,把拼音文字信息熵的计算方法,硬套在象形文字上。没有考虑新路子。

 

大家都知道,一个汉字要两个byte,比英文字母多,这粗粗一看,好像汉字的信息量总是低于英文,这是不求甚解的结果。象形文字,来自古先民对图形画的规范,又加上一些会意的东东。大家都知道,二维图象的信息量是一维字符串难以比拟的。但是图形经历了一次抽象,一次规范,和一次潜规则,其信息量的计算,老邪没见谁讲清楚过。

 

比如最近一个例子,“士”有多少信息量?字典可以查出一部分。但另一部分,士之区别于土,在最下一横的长度。但是这个长度,在手写时必定有误差。所以安哥拉在发明“入士”的时候,心里有0.789的或然率是在诅咒“入土”。

 

所以,徐晓博友如果真对汉字的信息熵感兴趣,不妨从这个例子开始研究。搞清楚汉字的信息熵,应该是原创性的。

 



https://blog.sciencenet.cn/blog-2984-736871.html

上一篇:“第二次结合”的伟大哲学思想
下一篇:中国 CDC 又进一步
收藏 IP: 123.122.12.*| 热度|

27 王春艳 刘全慧 陈楷翰 李学宽 许浚远 曹聪 赵美娣 周少祥 谢力 陆俊茜 徐晓 刘波 李宇斌 李志俊 陈冬生 柏舟 廖晓琳 姚小鸥 张成岗 biofans anran123 xqhuang xuyiganghz zhangzhi ccgoodluck chenhuansheng decipherer

该博文允许注册用户评论 请点击登录 评论 (19 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 13:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部