newway分享 http://blog.sciencenet.cn/u/newway Information rules

博文

四大名著的词频统计

已有 8845 次阅读 2007-11-27 10:11 |个人分类:Information Technology

大家都或多或少看过四大名著吧,这两天做中文文本分类实验,下载了四大名著实验分类效果,得出一些有趣的词频统计,大家在看数据之前,心里想想,红楼梦里面出现最频繁的词是什么?西游记呢?呵呵,下面我把四大名著的互斥(也就是没有在别的名著中出现的词,不然所有书最频繁的词都是“的”,“了”什么的) top 10 词汇列出供大家娱乐(注:分词采用的是中科院的ICTCLAS分词系统,统计来自80%章节的训练文档集,由于红楼梦前80节和后40节公认是两个作者,所以抽样的时候同样按照2:1的比例随机抽取)

红楼梦top 10 互斥词汇 ( 前面的数字代表出现次数)
3080 宝玉
912 姐
901 姑娘
742 丫头
681 太太
677 老太太
633 琏
453 咱们
418 姐儿
415 黛玉



西游记top 10 互斥词汇

1049 三藏
495 沙僧
333 老孙
241 钯
190 取经
170 铁棒
169 猴王
167 师徒
150 妖魔
142 云头
(其中“悟空” 出现108词,唐僧还在后面。。。对不起了八戒,你不入流)



三国演义

1081 玄德
440 蜀
398 司马
371 懿
346 瑜
344 关公
315 绍
263 荆州
242 诸葛
222 卓

水浒传

910 李逵
834 武松
703 宋江
624 後
571 头领
479 泊
463 梁山
295 晁
266 阮
253 江道

(李逵这家伙!喧宾夺主!!!)

等有空,我再用Machine learning来rank 红楼梦的章节,看看吕先生说的前80章后40章不同风格(不同作者)是否一致!

https://blog.sciencenet.cn/blog-5691-11657.html


下一篇:采访2038年的Google创始人Larry Page
收藏 IP: .*| 热度|

0

发表评论 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 13:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部