|||
中文“字”与英文“词汇”的一种统计学对比
张学文,2015.11.12-- 引用者请注明出处
大家都承认中文与英文是两种截然不同的文字。但是在统计学的视角下,它们有类似之处。
中文的“字”有的笔画多,有的笔画少。我们可以问这样一个统计学问题:
在汉字中由不同笔画组成的汉字各有多少。
在英文中与此类似的问题是:英文词汇由英文字母组成,在英文中不同字母组成的词汇各有多少。
在统计学视角下这两个问题具有可比性。下面是我的对比。
我在博客http://blog.sciencenet.cn/blog-2024-3605.html中给出不同笔画数量x(横坐标)的汉字数量y(纵坐标)的关系如下图
此图中的黄色部分是对数正态分布的结果,绿色是统计结果。本图说明汉字笔画符合对数正态分布。
今年(2015)我用一本英文小词典上的全部6626个英文词汇统计不同字母组成了多少个英文词汇,获得了下面的图
我看其分布外形类似中文的图,而仅是平均值(最大值,众值)比中文小了很多。中文字的笔画“众值”好像在11附近,而英文词汇的“众值”应当在6附近。我猜(不是真的统计学检验,偷懒)这个曲线也符合对数正态分布。
真是如此吗?欢迎有兴趣者验证之。
中文为什么符合对数正态分布?欢迎参考我在《组成论》一书(2003,中国科技大学出版社)中给予的说明。
下面附上本图对应的统计数据表(有3个词汇的字母数量超过30个没有列出)
字母数量 | 词汇数量 | 字母数量 | 词汇数量 |
1 | 4 | 16 | 11 |
2 | 30 | 17 | 9 |
3 | 340 | 18 | 6 |
4 | 1011 | 19 | 5 |
5 | 1095 | 20 | 4 |
6 | 1152 | 21 | 5 |
7 | 1001 | 22 | 2 |
8 | 695 | 23 | 1 |
9 | 514 | 24 | 1 |
10 | 331 | 25 | 0 |
11 | 192 | 26 | 2 |
12 | 110 | 27 | 0 |
13 | 48 | 28 | 0 |
14 | 35 | 29 | 0 |
15 | 19 | 30 | 0 |
我对此的零散前期统计见
|
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 14:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社