yangleader的个人博客分享 http://blog.sciencenet.cn/u/yangleader 教授,博士生导师,北邮信息安全中心主任

博文

悼念汪国真 精选

已有 5034 次阅读 2015-5-1 21:19 |个人分类:机器文学 |系统分类:诗词雅集

悼念汪国真

----《汪国真诗集》的计算机分析

杨义先教授

北京邮电大学信息安全中心主任

灾备技术国家工程实验室主任

灵创团队带头人

 

   他一生写诗逾千!由于,无法获得其完整诗集电子版,因此,下面仅仅借助“机器文学算法”来分析比较有代表性的《汪国真诗集》(详见百度文库:

http://pan.baidu.com/share/link?shareid=337058102&uk=3038478453&app=zd)。并希望能够从中揭示一些过去不曾注意的秘密,特别是指出他为什么深受平民百姓喜爱的一些原因。

 

(一)生僻字使用情况

 

该诗集共有7145个字,但是,真正互不相同的字却很少,只有1128个字,即,平均每个字被重复使用了至少6.3次。而且,这些字都不是生僻字(这也许是汪粉们热爱他的原因之一吧),具体来说,这1128个字中:

只有区区9个字(汨桓羁嵋猥揶靥漪揄)不属于《小学生标准字典》,而且,这9个“生僻字”中,除了“汨”出现过两次,其它8个字都只出现过1次(而且,“汩”字还是以“汨汨”形式连续出现的,也相当于仅仅出现1次吧)。换句话说,对普通小学生来说,最多只有八首诗中会出现不认识的字,其它字全都认为,没有生字的障碍。进一步地分析,“嵋”字是以“峨嵋”的形式出现,“桓”是以“盘桓”的形式出现,“羁”是以“羁绊”的形式出现,“猥”是以“猥琐”的形式出现,“揶”和“揄”是以“揶揄”的形式出现,“漪”是以“涟漪”的形式出现,这些都是太常见词了,普通人猜也能够猜出。所以,《汪国真诗集》中的真正生僻字,可能只有一个“靥”字!

排除上面的九个“生僻字”后,即使从《小学生标准字典》角度来看,“汪诗”的1117个字,也是“简单字”中的简单字了,实际上,

属于“小学生最常用2500个汉字”的就多达979个;

属于“小学生次常用1000个汉字”的有96个;

不属于常见3500个汉字(但属于《小学生标准字典》)只有42个。

到此,我们可以得出结论:从用字难度来说,《汪国真诗集》已经简单得没法再简单了!如果意境又非常好,用字又如此简单,我们老百姓为什么不特别喜欢呢?!其它诗人能够少一些卖弄吗?我们真的不认识几个字呢!

 

(二)重复用字情况分析

 

上面已经说过,《汪国真诗集》中平均每个字要重复出现6.3次。如果继续深挖,还能够得到一些有趣的结果。具体地说,“汪诗”的7145个字中:

只出现一次的字共多达436个;

出现二次的字202个;

出现三次的字109个;

出现四次的字72个;

出现五次的字45个;

出现六次的字36个。

到此可知,“汪诗”中重复频率低于平均频率(6.3)的字多达:436+202+109+72+45+36=900个!这意味着,在《汪国真诗集》中,其实主要是如下1128-900=228个字在那里反复出现而已!因此,“汪诗”不但字简单,而且,其“主角字”还相当集中,只有228个!

“汪诗”中重复率高于平均值的228个字:“的是不一人我有了个你时生也如在为种心能要以自得就真很中然果己高可美上无这便大风来没别而么难会过于活那却让使因山到对还修总最感地够力走天出绝清情容年成都默平日向笑月只子淡当多更太又面必常诚动方光好和拒们命磨什世说他样丽事往微想着智但欢选远保春此发给洁界起望物喜养意择爱背纯或静乐礼明忍洒身深受水相影间报持等定法候灵流路论女潇性友与怎泊长重帝孤回即强少同幸运之单凡见言眼比并才沉从待度否海魅耐宁其去所索她需阳则足变看把被承孩话境里理轻色尚视双头问小已优雨者正”。如果继续对这228个字进行挖掘,还有更多的故事可讲:

“的”字出现的次数最多,高达331次!因此,“汪诗”的口语化程度相当高,非常“接地气”!

“是”与“不”是出现次数第二和第三的两个字,分别是219次和172次。因此,“汪诗”其实不断地在进行着“肯定”与“否定”运算,界线分明(或“爱憎分明”吧),不含糊,容易给读者留下深刻的印象。另外,“不”字在“汪诗”中,占总字数比例高达172/7145=2.4%,是徐志摩(1%)的2.4倍,这说明“汪诗”的逆向思维相对更普遍,这就常常让读者“意想不到”。同样,“汪诗”中“是”字占总字数的比例,也是徐志摩的3倍。(注:本文中《徐志摩全诗集》取自网络:

 http://www.360doc.com/content/14/0924/14/3429673_412003980.shtml

“汪诗”中出现次数超过百次的字还有:一(130次),人(108次),我(107次),有(104次)(其它字都不超过61次)。出现这么多“我”,说明“汪诗”更偏向“以自我为中心”,是内向的,能够让读者有“切身的感受”,因此,容易被喜欢。注:徐志摩诗中,“我”的比例更高达2.4%,是“汪诗”(1.5%)的约2倍,因此,在“以自我为中心”方面,徐志摩更甚。“人”字有多重含义,其中也包括与“我”相反的“外向”含义,而“人”字与“我”字出现的次数,几乎相同(分别为108107),因此,扣除“人”的其它含义后,这就从另一个角度说明:与“外向”相比,“汪诗”确实是更“内向”!(注:徐志摩诗中,“人”字出现的总频率都仅仅只有“我”的约1/8,可见,“徐诗”是多么“内向”!)由于“一”和“有”字的意境不十分明显,因此,我不知道如何解释“汪诗”中为什么出现了这么多“一”字(130次)和“有”(104次)字,请读者自己去解读吧。

 

(三)强意境字分析

 

“意境”分析本来应该是最重要的分析,因为,“诗”之所以为诗,其实,最主要的原因是,它们能够用简练(甚至带韵、限形)的文字,营造出美妙的意境,以此来引导读者产生相关的感受。但是,由于“意境”很难量化,至少,到目前为止,我还没有找到量化意境的模型和公式。

因此,下面我们只好从“汪诗”中,选出一些本身就有很强“意境”且歧义较少的特别字,来进行初步分析:

“你”字出现51次,点总字数的0.6%(徐志摩为0.9%),因此,“汪诗”(包括“徐诗”)的“面对面倾诉感”很强。好像所有诗的倾诉感都比散文强吧,当然,没有数据支撑,仅仅是直观感觉而已。在“汪诗”中“他、她、它”只分别出现了1485次,这也从另一个角度,突显了其“倾诉性”。

“了”字出现61次,是“低于百次”的字中,唯一最高次数,这说明“汪诗”更偏向于“过去时”,而不是“进行时”或“未来时”(“将”字只出现了2次)。在“过去时”方面,“汪诗”和徐志摩几乎完全相同,“了”字将总字数的比例分别是0.82%0.85%

“汪诗”中有一个怪现象:“风”和“山”分别出现2520次(属于较频繁出现的字眼),“雨”和“雷”都只出现7次,这也许可以解释为“汪国真生在北京、长在北京、工作也在北京,而北京的雷雨本来就少,因此,以此为灵感写诗的机会也少;北京本来就风多,因此,写“风”的机会就多”。但是,“汪诗”中“雪”字只出现了1次,这显然不是北京诗人的做法嘛?!难道汪国真先生不喜欢雪?!而且,与南方相比,北京的山也不多呀,为什么“汪诗”偏要“反其道而行之”,出现多的自然环境(雪)不去写,却去写少见的“山”?(也许本诗集中,大部分诗都是他在热天写成的,由此可见,要想全面分析汪国真,还真得需要他的“全诗集”,希望有某位网友能够给我提供,先谢谢啦!)

“日”和“月”出现的次数都是16次,说明“汪诗”夜晚(或白天)没有特别的爱好,而徐志摩却更爱夜晚哟(“徐诗”中“月”出现的频率,差不多是“日”字频率的2倍!)

在以第三人称描述时,汪国真更喜欢写男人(“他”是“她”的约2倍),而徐志摩更喜欢写女人(“她”是“他”的4倍)。

汪国真比徐志摩更爱写“海”,因为,按照“海”字出现的频率,“汪诗”是“徐诗”的3倍。这又有点奇怪了,北京没海(“中南海”不能算海吧),而徐志摩本该更爱海的哟,因为,他的笔名之一就是“海谷”,而且,还曾多次“漂洋过海”。当然,这也许是巧合吧。

在四季中,汪国真对“春”严重偏爱,对“秋”次之(“秋”的出现频率只有“春”的1/4),而另两个季节几乎不感兴趣,只提了一次“冬”,而压根就没提过“夏”!与汪国真相比,徐志摩对“春”和“秋”同等热爱(这两字出现的频率几乎完全一样,只差1),对“夏”和“冬”同等“冷淡”(这两字出现的频率几乎完全一样,只差1)。

估计汪国真不喝酒,因为,“酒”字只出现了2次(而“醉”字干脆没有出现),这与李白形成了鲜明的对照,可见,不喝酒也能出好诗哟。(注:徐志摩可能也不喝酒,理由相同)。

语文写诗作业中,学生们常用的“啊”字,在“汪诗”中,只出现过一次!可见,没有乌鸦叫,也能写诗。同学们要改改“逢诗必啊”的习惯哟,虽然,徐志摩多次用过“啊”(15次)、“呀”(9次)等感叹字!

“汪诗”整体上比较乐观,实际上,出现次数超过10次的字中都没有像“悲(6次)、惨(0次)、忧(4次)、愁(2次)”等悲观的字眼,而都是一些积极的字眼,比如,能(37次)、真(31次)、高(26次)、美(26次)、笑(16次)、诚(14次)、好(14次)、丽(13次)、欢(12次)、洁(12次)、喜(12次)、静(11次)、乐(11次)、礼(11次)、明(11次)、爱(11次)、纯(11次)等。

网上已经有人,计算出了《全宋词》中出现频率最高的十个词:一、东风、何处、人间、风流、归去、春风、西风、归来、江南,它们共涉及到如下15个字:“流归去春西来江南一东风何处人间”。现在来看看“汪诗”与《全宋词》是否吻合:1)前面已说过了,“一”字,无理由地,出现高达130次,与《全宋词》基本吻合;2)“人”字(108次),也基本吻合;3)“来”与“风”,都是25次,勉强吻合;4)“春”(12次)、“流”(10次)、“间”(10次)基本不吻合;5)其它字严重不吻合。可见,诗词的用字确实有时代特色,当然更有每个人的特色。

对“汪诗”进行大数据分析的内容还可以更加丰富,但是,由于我们想,利用“五一”假期,赶在“头七”前,表达对汪国真的怀念,所以,此文就先行发表吧。希望有网友能够给我们提供完整的“汪国真全诗集”电子版,也更欢迎大家对我们的分析提出批评意见,特别是还需要对其它什么方面进行分析等。

愿汪国真,一路走好!




https://blog.sciencenet.cn/blog-453322-886744.html

上一篇:新拍案惊奇
下一篇:《道德经》(白话精译版)
收藏 IP: 106.37.24.*| 热度|

19 武夷山 罗德海 周少祥 汪晓军 唐常杰 黄永义 苗元华 李雄 徐义贤 鲍博 李琴 王启云 陈苏华 yzqts taoshl fishman936 changtg yunmu shiyongjin

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 03:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部