严谨点的说法是:科学网博文中使用频率可能最高的30个汉字。这是一个小样本统计,只统计了400多万字的博文。
Total:4135858|
index | word | count | percent |
1 | 的 | 168009 | 4.06225262086% |
2 | 是 | 59784 | 1.4455041735% |
3 | 一 | 50826 | 1.22891066376% |
4 | 不 | 43357 | 1.04831935719% |
5 | 有 | 41516 | 1.00380622352% |
6 | 学 | 38011 | 0.919059600209% |
7 | 人 | 36411 | 0.880373552477% |
8 | 在 | 36382 | 0.879672367862% |
9 | 了 | 36140 | 0.873821103142% |
10 | 国 | 33076 | 0.799737321736% |
11 | 中 | 29560 | 0.714724731845% |
12 | 上 | 29052 | 0.70244191169% |
13 | 大 | 27692 | 0.669558771118% |
14 | 我 | 27419 | 0.662957964224% |
15 | 都 | 26882 | 0.649973959454% |
16 | 这 | 26217 | 0.633895070866% |
17 | 个 | 25138 | 0.607806167426% |
18 | 为 | 24763 | 0.598739124989% |
19 | 年 | 23706 | 0.573182154706% |
20 | 和 | 23313 | 0.563679894232% |
21 | 生 | 21074 | 0.509543606188% |
22 | 发 | 19852 | 0.479997137232% |
23 | 以 | 19351 | 0.467883568536% |
24 | 会 | 18470 | 0.446582063504% |
25 | 要 | 18255 | 0.44138362584% |
26 | 来 | 17813 | 0.430696605154% |
27 | 到 | 17614 | 0.425885027968% |
28 | 地 | 17491 | 0.422911038048% |
29 | 们 | 17386 | 0.420372266166% |
30 | 时 | 17083 | 0.413046095877%
|
据说大样本统计下,全国人民使用频率最高的30个汉字依次为[1]:
序 号 汉字 出现次数 累计字数 万分比 累计万分比
1 的 2948833 2948833 341.277 341.277
2 一 974062 3922895 112.731 454.008
3 国 921530 4844425 106.651 560.660
4 在 708916 5553341 82.045 642.704
5 人 697930 6251271 80.773 723.478
6 了 684656 6935927 79.237 802.715
7 有 670720 7606647 77.624 880.340
8 中 663971 8270618 76.843 957.183
9 是 657739 8928357 76.122 1033.305
10 年 616475 9544832 71.346 1104.651
11 和 584413 10129245 67.636 1172.287
12 大 570956 10700201 66.078 1238.366
13 业 565293 11265494 65.423 1303.789
14 不 546979 11812473 63.303 1367.092
15 为 468456 12280929 54.216 1421.308
16 发 461512 12742441 53.412 1474.720
17 会 445670 13188111 51.579 1526.299
18 工 433014 13621125 50.114 1576.413
19 经 425318 14046443 49.223 1625.636
20 上 417611 14464054 48.331 1673.968
21 地 412051 14876105 47.688 1721.655
22 市 403159 15279264 46.659 1768.314
23 要 388850 15668114 45.003 1813.317
24 个 379160 16047274 43.881 1857.198
25 产 376257 16423531 43.545 1900.744
26 这 375400 16798931 43.446 1944.190
27 出 367460 17166391 42.527 1986.717
28 行 361038 17527429 41.784 2028.501
29 作 350129 17877558 40.521 2069.022
30 生 344272 18221830 39.844 2108.866
和科学网博文高频汉字是有出入的,对比一下,也许会有一番启发
比如科学网博文中的“学”,能达到第6位,这是相当独特的。
还有“我”,排到14位,能否说明科学网博主的文章更具有客观性?
======== 延伸阅读 ========
博客感言
https://blog.sciencenet.cn/blog-1750-453712.html
上一篇:
个体极大的左右了科学发展进程下一篇:
《黄帝内经》全文字频统计