|||
不同字母组成的英语词汇各有多少问题(1)
张学文,2015/9/9
上个月与一位物理学者聊天。他对我曾经分析不同笔画的中国字各有多少有些好奇。我说这与麦克斯韦推断不同运动速度的分子各有多少是一个思路。我就把不同笔画数量x的汉字数量y的关系符合对数正态分布(概率论中的一种重要分布函数)吹了一番 http://bbs.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&id=3605。随后我对自己没有分析英文的对应问题而表示遗憾。
随后我又掂量分析英语词汇对应问题的难度,认为固然比分析汉字难,但是也不算很难。于是就试图动手。经过一些技术准备,我决定用一本只有7000多个词汇的小字典做样本。去分析英文字典中不同字母组成的英文词汇各有多少。
下面是该字典中已经获得的以A,B,D,E,F,G开头的词汇的字母数量与总词汇数量的关系表
词汇的字母数量 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
对应的词汇数量 | 1 | 9 | 101 | 284 | 333 | 349 | 286 | 214 | 182 | 97 |
词汇的字母数量 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
对应的词汇数量 | 47 | 22 | 10 | 12 | 3 | 1 | 1 | 1 | 1 | 1 |
下面是它们对应的字母数量与词汇数量的函数关系图
1. 显然图中显示英语中5-9个字母组成的英语词汇最多,估计把从A到Z都拿来统计(待补),应当差不多。即它们大致也是符合对数正态分布的。这是真的吗?
2. 难道风格与英文完全不同的中文在统计结构上有类似处?这为什么?
3. 其他语言的文字结构(如俄语)是否也是如此?
4. 等等
这些我们后面在讨论。
参考网页: http://bbs.sciencenet.cn/home.php?mod=space&uid=2024&do=blog&id=3605
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-13 14:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社