Meng Xiangxi的个人博客分享 http://blog.sciencenet.cn/u/MengXiangxi

博文

个人输入法词频统计

已有 3478 次阅读 2016-3-5 16:35 |系统分类:科普集锦

近来我的计算机出了一些问题,而我在修复过程中重装了输入法,差点把我积累八、九年的用户字典给弄没了。

然而我还是在备份机器上找到了截至去年圣诞节的数据。拿到数据之后我突发奇想的提取了我个人在这若干年内的用户数据,并对其按照频率进行了排序。

这个列表显然反应了汉语以及我个人语言习惯的某些特征,但是要考虑到谷歌输入法的输入单元是较为灵活的,故它没有直接的语言学意义。无论如何,它还是能反映一些东西出来的。

我, 30208
是, 16458
的, 15665
在, 12017
和, 11628
你, 9534
我们, 5432
这个, 5253
有, 5098
但是, 4984
一个, 4682
可以, 4669
了, 4514
对, 4307
就, 4122
么, 4076
没有, 4059
也, 3931
吧, 3744
去, 3369
都, 3322
他, 3317
不是, 3092
如果, 2852
问题, 2851
还是, 2575
用, 2562
要, 2514
把, 2488
就是, 2467
你们, 2460
做, 2440
现在, 2363
上, 2343
时候, 2269
【我的名字】, 2206
会, 2195
他们, 2165
那个, 2013
已经, 1984
其实, 1966
老师, 1945
南开, 1937
与, 1934
人, 1917
说, 1916
好, 1912
中, 1862
从, 1858
这样, 1781
很, 1702
化学, 1699
到, 1690
能, 1687
被, 1677
再, 1670
呃, 1668
呢, 1655
觉得, 1626
不, 1617
什么, 1616
因为, 1604
应该, 1599
等, 1584
我的, 1584
非常, 1563
不过, 1553
而, 1546
话, 1545
来, 1530
一下, 1514
年, 1499
自己, 1485
还有, 1466
还, 1462
这是, 1458
个, 1440
进行, 1433
给, 1428
一些, 1427
可能, 1403
同学, 1402
您, 1398
为, 1390
所以, 1371
研究, 1369
然后, 1345
嗯, 1324
都是, 1323
需要, 1321
南开大学, 1313
想, 1304
看到, 1302
其, 1295
不知道, 1295
文章, 1290
实验室, 1273
请, 1272
并, 1250
比较, 1249
不要, 1222
也是, 1216
而且, 1216
这, 1215
材料, 1204
下, 1177
或者, 1168
感觉, 1167
北京大学, 1161
发现, 1160
你的, 1159
看, 1149
很多, 1147
活动, 1128
我是, 1125
作为, 1122
对于, 1113
东西, 1106
以, 1105
求, 1094
学校, 1075
将, 1075
今天, 1066
方法, 1065
月, 1059
知道, 1059
写, 1057
化工, 1057
希望, 1055
啊, 1046
虽然, 1030
不能, 1029
天大, 1027
怎么, 1022



基于上面的语料,我又写了两段小程序处理了一下,得到一个非常好玩而且有一定实际意义的字频分布。下面是我的100大常用字:

===================================================
序号    字      频数    频率            累计频率
---------------------------------------------------
1    我    59270    0.023632904    0.023632904
2    是    56673    0.022597395    0.046230299
3    不    38960    0.015534637    0.061764936
4    的    36614    0.01459921    0.076364145
5    一    34877    0.01390661    0.090270756
6    学    32906    0.013120708    0.103391463
7    有    29132    0.011615889    0.115007353
8    你    26895    0.010723924    0.125731276
9    个    23697    0.009448776    0.135180052
10    在    22180    0.008843898    0.144023949
11    这    21060    0.008397317    0.152421266
12    大    18909    0.007539642    0.159960908
13    要    14589    0.005817116    0.165778024
14    们    14343    0.005719027    0.171497051
15    和    13877    0.005533218    0.177030269
16    了    13852    0.005523249    0.182553518
17    以    13418    0.005350199    0.187903717
18    么    13277    0.005293978    0.193197695
19    好    13213    0.005268459    0.198466154
20    人    12682    0.005056732    0.203522886
21    没    12092    0.004821479    0.208344365
22    就    11870    0.004732961    0.213077325
23    化    11745    0.004683119    0.217760444
24    生    11588    0.004620518    0.222380962
25    到    11489    0.004581043    0.226962006
26    可    11440    0.004561505    0.231523511
27    能    11023    0.004395234    0.235918745
28    上    10906    0.004348582    0.240267327
29    来    10646    0.004244911    0.244512238
30    会    10566    0.004213013    0.248725251
31    中    10444    0.004164367    0.252889618
32    分    10408    0.004150013    0.257039631
33    天    10400    0.004146823    0.261186454
34    对    10385    0.004140842    0.265327296
35    也    10306    0.004109342    0.269436638
36    子    10282    0.004099773    0.273536411
37    还    10172    0.004055912    0.277592323
38    实    10139    0.004042754    0.281635076
39    他    10082    0.004020026    0.285655102
40    为    9970    0.003975368    0.28963047
41    用    9913    0.00395264    0.29358311
42    过    9898    0.003946659    0.297529769
43    说    9877    0.003938286    0.301468055
44    下    9489    0.003783577    0.305251632
45    时    9282    0.00370104    0.308952672
46    物    8870    0.003536762    0.312489434
47    那    8603    0.0034303    0.315919733
48    文    8414    0.003354939    0.319274673
49    看    8359    0.003333009    0.322607682
50    开    8199    0.003269212    0.325876894
51    工    8190    0.003265623    0.329142517
52    发    8100    0.003229737    0.332372254
53    多    8025    0.003199832    0.335572086
54    得    7815    0.003116098    0.338688184
55    科    7806    0.00311251    0.341800694
56    去    7803    0.003111313    0.344912008
57    都    7736    0.003084598    0.347996606
58    理    7690    0.003066257    0.351062863
59    于    7385    0.002944643    0.354007506
60    很    7349    0.002930289    0.356937794
61    本    7251    0.002891213    0.359829007
62    然    7215    0.002876858    0.362705866
63    问    7114    0.002836586    0.365542452
64    方    6914    0.00275684    0.368299292
65    后    6851    0.00273172    0.371031012
66    行    6704    0.002673106    0.373704118
67    成    6695    0.002669517    0.376373635
68    作    6671    0.002659948    0.379033583
69    现    6572    0.002620473    0.381654056
70    如    6570    0.002619676    0.384273732
71    题    6543    0.00260891    0.386882642
72    出    6460    0.002575815    0.389458457
73    想    6290    0.00250803    0.391966487
74    定    6098    0.002431474    0.394397961
75    其    6084    0.002425891    0.396823853
76    但    6053    0.002413531    0.399237383
77    同    5987    0.002387214    0.401624598
78    面    5841    0.002328999    0.403953597
79    吧    5779    0.002304278    0.406257875
80    做    5634    0.002246462    0.408504337
81    老    5594    0.002230512    0.410734849
82    自    5559    0.002216557    0.412951406
83    应    5541    0.002209379    0.415160785
84    年    5516    0.002199411    0.417360196
85    国    5494    0.002190639    0.419550835
86    南    5460    0.002177082    0.421727917
87    体    5441    0.002169506    0.423897424
88    师    5416    0.002159538    0.426056961
89    经    5388    0.002148373    0.428205335
90    程    5383    0.00214638    0.430351714
91    道    5380    0.002145183    0.432496898
92    性    5352    0.002134019    0.434630917
93    给    5328    0.002124449    0.436755366
94    里    5219    0.002080987    0.438836354
95    高    5111    0.002037924    0.440874278
96    知    5061    0.002017988    0.442892266
97    合    5044    0.002011209    0.444903475
98    果    5012    0.00199845    0.446901924
99    小    4928    0.001964956    0.448866881
100    点    4904    0.001955387    0.450822267
===================================================

 汇总统计如下,下面显示至少要多少个单字才能覆盖总字频的比率。

=============
累积频率 字数
-------------
1      4675
0.99    2221
0.95    1224
0.9    829
0.8     483
0.75     384
0.5    128
==============


这告诉了我们一些有趣的事实:

1. 我这么多年用Google输入法一共才输入了4675个不同的汉字,我相信我认识的字数比这多多了。一则事实是,新版的新华字典收录汉字万余。保守估计我能认识八、九千。也就是说,汉字识读率是远高于实际使用率的。

2. 我超喜欢说“我”,实际上我大约每50个字就会出现一次“我”。但是这一条一共39个汉字,就出现了五个“我”。

3. 我是一个学渣,然而我的前10大常用字中,第一个非小品词的字居然是“学”!

4. 最常用的“纯粹的”动词是“有”(“是”词性复杂,“学”动、名两可,“有”最主要的功能是作动词)。最常用的实意动词是“要”。

5. 前十大常用字可以组成句子“你是不是在学一?”所以请和我多约饭。

6. “化”排23,“生”排24,“工”甚至没有进前50。但是我依然不是生狗或砖工,我依然是工程师。

7. 有430个字,我用过一次之后就再也不用了。

8. 有1538个字,我用过的次数不超过10次,相当于近1/3的字出现的总频率只有千分之二。

9. 想理解我的一半的语言,最少只需要认识128个字就行了。在此基础上再认识700个字,就可以认识我的九成语言了。然而想要理解我99%的汉字,在90%的基础上则要再认识1392个汉字,可见识字的边际效用递减。

10. 这么多年,我一共用Google输入法输入了2,507,944个字,相当于写了三本半的《红楼梦》。需要csv格式的全部数据的请私下联系我,因为词频中可能包含一些个人识别信息,所以只提供给我能够信任的人。



科学网博客的编辑器实在是难用,这大概是我最后一篇博客了。

之后迁移到哪里还要再考虑一下。




http://blog.sciencenet.cn/blog-270448-960642.html

上一篇:甲卡西酮的诞生——一点历史钩沉

1 张学文

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-13 10:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部