|||
汉字的笔画熵以及…
张学文,2013/11/12
今天再次看在科学网博客上讨论中文的熵与西文的比较文章:“文字之熵”,http://blog.sciencenet.cn/blog-731678-740992.html,我支持作者的认识。
汉字的结构基础与西文的字母结构基础是不同的,形式地,简单地去比,不能说明什么。也不应当把我们自己搞糊涂了。
当我们提笔写一个英文字母时,它是在26个字母中做选择(而且还要考虑是否为数码、大小写的差别方面做选择),当我们写一个中文字时,我们需要在这个汉字有多少笔画中做选择(而且还要在该笔画下的字的具体结构中做选择)。这个选择的难度肯定比选择一个英文字母的难度(信息熵)要大,这个问题体现在汉字单字的笔画熵(不确定性)大。
一个汉字的笔画的不确定性有多大?这就是统计出不同笔画的汉字各有多少(百分比),再根据这个百分比,概率,按照申农熵的定义公式计算出来;而且再考虑其结构的不确定性。这里我们着重讨论汉字的笔画的不确定性。
根据本人先前的统计(见《组成论》一书18章-汉字的数学美)。如果认同<辞海>给的汉字是12626个,而不同笔画的汉字数量是下表,代入计算熵的公式,{-(概率)log2(概率)}的合计值,我得出汉字笔画的信息熵是8.27比特,(此数据是第1次公布在这里)。
不同笔画汉字的数量、占有的权重,概率和信息熵{-(概率)log2(概率)}
笔画 | 个数 | 概率,% | bite熵 | 笔画 | 个数 | 概率,% | bite熵 |
1 | 3 | 0.000184 | 0.014752 | 18 | 567 | 0.034867 | 0.362197 |
2 | 23 | 0.001414 | 0.062653 | 19 | 495 | 0.030439 | 0.343741 |
3 | 74 | 0.00455 | 0.131252 | 20 | 370 | 0.022752 | 0.304555 |
4 | 163 | 0.010023 | 0.20475 | 21 | 264 | 0.016234 | 0.261022 |
5 | 261 | 0.01605 | 0.2596 | 22 | 208 | 0.012791 | 0.232205 |
6 | 464 | 0.028533 | 0.334963 | 23 | 159 | 0.009777 | 0.202074 |
7 | 823 | 0.050609 | 0.411832 | 24 | 121 | 0.007441 | 0.174206 |
8 | 1084 | 0.066658 | 0.445846 | 25 | 65 | 0.003997 | 0.121434 |
9 | 1281 | 0.078773 | 0.46454 | 26 | 34 | 0.002091 | 0.080969 |
10 | 1357 | 0.083446 | 0.470567 | 27 | 27 | 0.00166 | 0.069673 |
11 | 1445 | 0.088857 | 0.476859 | 28 | 19 | 0.001168 | 0.055112 |
12 | 1571 | 0.096606 | 0.484751 | 29 | 9 | 0.000553 | 0.03284 |
13 | 1307 | 0.080371 | 0.466668 | 30 | 4 | 0.000246 | 0.018263 |
14 | 1188 | 0.073054 | 0.456317 | 31 | 3 | 0.000184 | 0.014752 |
15 | 1125 | 0.06918 | 0.450148 | 33 | 2 | 0.000123 | 0.010872 |
16 | 956 | 0.058787 | 0.430743 | 35 | 1 | 6.15E-05 | 0.006387 |
17 | 788 | 0.048457 | 0.406197 | 36 | 1 | 6.15E-05 | 0.006387 |
总数 | 16262 |
|
| 信息熵 | 单位比特 |
| 8.269127 |
我认为不讨论汉字的这些基础特征,难以对比中英文的信息特征。
附带说一句,在汉字集合中不同笔画x的汉字与其数量y,的关系是一个很漂亮的曲线,我曾经指出它符合对数正态分布。它对应的图如下。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 00:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社