|||
徐晓博友博文 文字熵的简述 总的来说,是一篇好科普。但是,跟时髦潮流一样,把拼音文字信息熵的计算方法,硬套在象形文字上。没有考虑新路子。
大家都知道,一个汉字要两个byte,比英文字母多,这粗粗一看,好像汉字的信息量总是低于英文,这是不求甚解的结果。象形文字,来自古先民对图形画的规范,又加上一些会意的东东。大家都知道,二维图象的信息量是一维字符串难以比拟的。但是图形经历了一次抽象,一次规范,和一次潜规则,其信息量的计算,老邪没见谁讲清楚过。
比如最近一个例子,“士”有多少信息量?字典可以查出一部分。但另一部分,士之区别于土,在最下一横的长度。但是这个长度,在手写时必定有误差。所以安哥拉在发明“入士”的时候,心里有0.789的或然率是在诅咒“入土”。
所以,徐晓博友如果真对汉字的信息熵感兴趣,不妨从这个例子开始研究。搞清楚汉字的信息熵,应该是原创性的。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-23 13:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社