科学出版社分享 http://blog.sciencenet.cn/u/sciencepress 中国最大的综合性科技出版机构之一,科学家的出版社!

博文

“文学指纹”:用数学来解决文学问题

已有 5422 次阅读 2015-8-28 08:52 |个人分类:科学书摘|系统分类:观点评述

 

《红楼梦》后40回的作者到底是谁?


长期以来人们普遍认为是高鹗,有些研究列举了许多人续写的本子,最后评价是“高鹗续写的后40回最好”,所以现在的版本都采用他的续本.尽管也有人说他是“狗尾续貂”,但没有比他更好的了.在数理统计进入文学研究领域以后,这个结论遭到了质疑.1980年6月,在美国威斯康星大学召开了首届《红楼梦》国际研讨会,华裔学者陈炳藻宣读了论文“从词汇统计论《红楼梦》的作者问题”.他从前80回与后40回的字、词出现频率的比较入手,通过计算机进行处理、分析,最后认为后40回也是曹雪芹所作.

不过这也有争论,复旦大学的学者陈大康从冷僻词和虚词的用法习惯入手(曹雪芹是南方汉人,高鹗是北方旗人,用词习惯不同),也采用数理统计方法来比较分析,认为前80回与后40回并非同一人所作.

《静静的顿河》是不是抄袭之作?

这也困扰了文学界很长时间.《静静的顿河》的文学地位毋庸置疑,它的作者肖洛霍夫因此获得1965年诺贝尔文学奖.但后来有人提出异议,认为该书第一卷出版时肖洛霍夫很年轻,不可能有这么深的生活阅历,而且肖洛霍夫在此后再也没有水平相当的文学作品问世,因此认为《静静的顿河》很可能是肖洛霍夫抄袭哥萨克作家克留可夫的作品,充其量只能算是个合作者.为了搞清这个问题,捷泽等学者采用了数理统计方法:他们把《静静的顿河》四卷本拿来与肖洛霍夫、克留可夫二人的其他已被确认的作品进行统计对比,做法大致是,先从《静静的顿河》中随机挑选出2000个句子作为一组样本,再从肖洛霍夫、克留可夫的其他作品中随机地各选500个句子组成两个样本,然后输入计算机进行对比:

1. 计算句子的平均长度:结果3组样本比较接近.再按不同长度细分为若干组,对3组样本中对应的句子组进行比较,结果发现《静静的顿河》与肖洛霍夫的小说比较接近,而与克留可夫的小说相去甚远.

2. 进行词类比较分析:从3组样本中各取出10000个单词进行用法比较,结果发现,除了代词以外,有6类词,肖洛霍夫的小说都与《静静的顿河》相符,而克留可夫的小说则与之不相符.

3. 考察处于句子中不同位置的词类状况:俄语的词类在句子中不同位置的用法可以很好地表现文体的风格特点,尤其是句子开头的2个词和句子结尾的3个词,往往可以起到区分文体风格的作用.统计结果发现,《静静的顿河》与肖洛霍夫的小说十分接近,而与克留可夫的小说有相当大的距离.

4. 进行句子结构分析:统计3组样本中句子的最常用格式.结果发现,《静静的顿河》与肖洛霍夫的小说最常见的句式都是“介词+体词”起始的句子,而克留可夫的小说最常见的句式是以“主词+动词”起始的句子.

5. 统计3组样本中出现频率最高的15种开始句子的结构:发现肖洛霍夫小说中有14种结构与《静静的顿河》相符,而克留可夫小说中只有5种出现在《静静的顿河》中.

6. 统计3组样本中出现频率最高的15种结尾句子的结构:发现肖洛霍夫小说中有15种结构与《静静的顿河》完全相符,而克留可夫小说中结尾句子的结构与《静静的顿河》完全不符.

根据以上六个方面的结果分析,捷泽等下结论:《静静的顿河》的真正作者就是肖洛霍夫.然而他们还是十分谨慎的,后来又以更大规模的再取样进行研究,最后认定《静静的顿河》确实是肖洛霍夫的作品,不过也许他在写作中参考过克留可夫的材料.

这种分析方法有些类似于物理中的频谱分析,现在已经多次成功地应用于文学研究,主要是研究文学作品的微观结构,就是文章的句型风格,人们把这称为“文学的指纹”.有报道说,日本的两位作家多久正和安本美典就大量应用这种文学频谱分析方法来分析各种文学作品,最后达到这样的程度——随便拿一篇文章来,他们都能准确地猜出作者是谁,就像法医根据指纹判断人一样,准确无误.


本文由刘四旦摘编自唐明、成敏、谢聪聪编著《大学数学与数学文化》一书。

 

由于在较大的历史和社会背景下介绍了数学的思想、发展和影响,本书对偏理工类各专业的大学生学好高等数学也会有所帮助,还可以在高等学校的通识教育课上用作介绍数学文化的教材。此外,对于讲授高等数学相关课程的教师们和其他对高等数学有兴趣的人们,也会是开卷有益的。

 


用您的手指点亮科学!

欢迎分享、评论,您的鼓励是我们前进的动力!

 

 



https://blog.sciencenet.cn/blog-528739-916543.html

上一篇:可持续发展年 | 世界“后发展议程”面临的五大挑战
下一篇:中科院心理所研究发现:错误的饮食可能加重自闭症
收藏 IP: 124.207.160.*| 热度|

2 李颖业 陈辉

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-19 17:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部