newway分享 http://blog.sciencenet.cn/u/newway Information rules

博文

计算汉字二字词语拼音"冗余度"

已有 9789 次阅读 2007-11-27 10:17 |个人分类:Information Technology

大家都会有感觉,中文很多词语都是两个字的把? 实际上,Newway 统计也证明,汉语的平均词长在2左右。因此大部分词语都是1字词语或者2字词语。
今天突然心血来潮,想量化一下2字词语拼音的冗余。

经过我对大型corpus(Chinese Gigaword v2)的统计,我得出了2字词语的不同拼音数目一共是41,960个。这是什么意思呢?
也就是说,基本上可能的中文2字词语,比如(中国:zhong guo,美丽:mei li)这样的组合一共只有41,960个(要注意的是,拼音相同的词就只算一次,例如 "话题" "滑梯" 的拼音都是 Hua ti)。

然后,根据同一corpus的统计,汉语一共的拼音( a, ai, ao .... zhi...zheng etc)一共不同的有 399个!
好,有了这两个数据,我们就可以计算咯~

最大可能的2字拼音组合,就是 399×399 = 159,201 个。

R(double-pinyin) = 41,960/159,201 = 26.36%

那么,这个数字到底说明什么呢?
那就是,如果大家随意在一个现代拼音输入法输入两个合法拼音,那么,有26.36%的概率这两个拼音能对应
至少一个合法词语。

注意这里忽略了音调的使用,但是音调毫无疑问降低了拼音-汉字转换的Ambiguity。比如 mei4guo1 就无法对应一个词。

下一步,就是加入音调的信息,然后看看这个uncertainty 能下降多少。
just for fun, 前十名常用单子拼音:

4800 shi
4497 yi
4061 zhi
4001 bu
3712 ji
3007 wu
2559 qi
2524 li
2364 ren
2321 yu

比较surprise de(的)居然没有出现。

https://blog.sciencenet.cn/blog-5691-11664.html

上一篇:T-score and Mutual Information discuss
下一篇:How to make LaTex handle unicode and CJK in Linux and Windows 如何在Linux下和Windows下
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 00:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部