气象.水.熵.复杂性分享 http://blog.sciencenet.cn/u/zhangxw 张学文的文章,涉及气象、水分、熵、统计、复杂性、一般科学等

博文

中文“字”与英文“词汇”的一种统计学对比

已有 6224 次阅读 2015-11-12 12:32 |个人分类:科学原始创新|系统分类:科研笔记| 英文, 中文, 结构

中文“字”与英文“词汇”的一种统计学对比

张学文,2015.11.12-- 引用者请注明出处

大家都承认中文与英文是两种截然不同的文字。但是在统计学的视角下,它们有类似之处。

中文的“字”有的笔画多,有的笔画少。我们可以问这样一个统计学问题:

在汉字中由不同笔画组成的汉字各有多少。

在英文中与此类似的问题是:英文词汇由英文字母组成,在英文中不同字母组成的词汇各有多少。

在统计学视角下这两个问题具有可比性。下面是我的对比。

我在博客http://blog.sciencenet.cn/blog-2024-3605.html中给出不同笔画数量x(横坐标)的汉字数量y(纵坐标)的关系如下图

此图中的黄色部分是对数正态分布的结果,绿色是统计结果。本图说明汉字笔画符合对数正态分布。

今年(2015)我用一本英文小词典上的全部6626个英文词汇统计不同字母组成了多少个英文词汇,获得了下面的图

我看其分布外形类似中文的图,而仅是平均值(最大值,众值)比中文小了很多。中文字的笔画“众值”好像在11附近,而英文词汇的“众值”应当在6附近。我猜(不是真的统计学检验,偷懒)这个曲线也符合对数正态分布。

真是如此吗?欢迎有兴趣者验证之。

中文为什么符合对数正态分布?欢迎参考我在《组成论》一书(2003,中国科技大学出版社)中给予的说明。

下面附上本图对应的统计数据表(有3个词汇的字母数量超过30个没有列出)

字母数量

词汇数量

字母数量

词汇数量

1

4

16

11

2

30

17

9

3

340

18

6

4

1011

19

5

5

1095

20

4

6

1152

21

5

7

1001

22

2

8

695

23

1

9

514

24

1

10

331

25

0

11

192

26

2

12

110

27

0

13

48

28

0

14

35

29

0

15

19

30

0

我对此的零散前期统计见

http://blog.sciencenet.cn/blog-2024-919615.html

http://blog.sciencenet.cn/blog-2024-921431.html

http://blog.sciencenet.cn/blog-2024-925430.html

 

http://blog.sciencenet.cn/blog-2024-929278.html




https://blog.sciencenet.cn/blog-2024-934644.html

上一篇:科学网编辑部应当实话实说
下一篇:世界各大洲人均淡水资源量的排序和评述
收藏 IP: 49.118.7.*| 热度|

7 武夷山 檀成龙 鲍海飞 陈昌春 杨正瓴 周少祥 icgwang

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 09:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部