气象.水.熵.复杂性分享 http://blog.sciencenet.cn/u/zhangxw 张学文的文章,涉及气象、水分、熵、统计、复杂性、一般科学等

博文

不同字母组成的英语词汇各有多少问题(1)

已有 4232 次阅读 2015-9-9 11:49 |个人分类:统计、概率、熵、信息、复杂性.2.|系统分类:科研笔记| 英文, 字母, 词汇

不同字母组成的英语词汇各有多少问题(1)

张学文,2015/9/9

上个月与一位物理学者聊天。他对我曾经分析不同笔画的中国字各有多少有些好奇。我说这与麦克斯韦推断不同运动速度的分子各有多少是一个思路。我就把不同笔画数量x的汉字数量y的关系符合对数正态分布(概率论中的一种重要分布函数)吹了一番 http://bbs.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&id=3605。随后我对自己没有分析英文的对应问题而表示遗憾。

随后我又掂量分析英语词汇对应问题的难度,认为固然比分析汉字难,但是也不算很难。于是就试图动手。经过一些技术准备,我决定用一本只有7000多个词汇的小字典做样本。去分析英文字典中不同字母组成的英文词汇各有多少

下面是该字典中已经获得的以A,B,D,E,F,G开头的词汇的字母数量与总词汇数量的关系表

词汇的字母数量

1

2

3

4

5

6

7

8

9

10

对应的词汇数量

1

9

101

284

333

349

286

214

182

97

词汇的字母数量

11

12

13

14

15

16

17

18

19

20

对应的词汇数量

47

22

10

12

3

1

1

1

1

1

 

下面是它们对应的字母数量与词汇数量的函数关系图

1.       显然图中显示英语中5-9个字母组成的英语词汇最多,估计把从AZ都拿来统计(待补),应当差不多。即它们大致也是符合对数正态分布的。这是真的吗?

2.       难道风格与英文完全不同的中文在统计结构上有类似处?这为什么?

3.       其他语言的文字结构(如俄语)是否也是如此?

4.       等等

 

这些我们后面在讨论。

参考网页: http://bbs.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&id=3605

 




https://blog.sciencenet.cn/blog-2024-919615.html

上一篇:愚问:火山爆发过程中是否存在明显的相变现象?!
下一篇:问编辑部:为什么陈昌春的博客今天突然打不开了?
收藏 IP: 49.118.20.*| 热度|

6 檀成龙 武夷山 姚俊强 魏剑宏 杨正瓴 冯大诚

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-13 14:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部