博文

历史上的文学大数据分析

已有 4874 次阅读 2014-10-11 06:23 |个人分类:科学计量学研究|系统分类:人文社科

历史上的文学大数据分析

■武夷山

【虽然大数据概念近些年才热起来，但早在19世纪，人们就见到了文学作品的定量分析的身影。】

2014年7／8月号的《美国科学家》杂志发表了Brian Hayes的文章《文学与大数据一相逢》。他说，虽然大数据概念近些年才热起来，但早在19世纪，人们就见到了文学作品的定量分析的身影。

在计算机尚未问世时，英国统计学家G. Udny Yule和C.B. Williams就尝试过如何利用句长的差异来表征不同的文学风格，识别不同的作者。1964年，出现了史上第一个主题为“文学数据处理”的学术会议，参会者有150人，讨论题目包括“计算文体学”，还有在计算机辅助下就弥尔顿对雪莱之影响作出估计。更早的时候，Frederick Mosteller和David L. Wallace就曾对《联邦党人文集》中常见词的词频（例如also、an、by、of）进行统计分析，试图确定哪些文章是汉密尔顿写的，哪些文章是麦迪逊写的。

Brian Hayes特别想介绍的是19世纪美国的两位“数字人文学”先驱人物。一位叫Thomas Corwin Mendenhall（1841~1924），是科学家，曾任印第安纳州罗斯理工学院的院长、美国国家科学院院士和美国科学促进会会长。1887年，他在《科学》杂志发表一篇文章《文章的特征曲线》。他认为，正如光谱线的模式可以表明存在着某化学元素一样，通过“词谱”或“特征曲线”也能表征一篇文章。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象，看看两人的“词谱”差异大不大，结果发现，差异不足以区分开两个作者。

另一位先驱人物叫Lucius Adelno Sherman（1847~1933），他的博士论文题目是《古英语诗歌“猫头鹰与夜莺”的语法分析》，从中可以看出他喜欢定量研究。例如，他统计了这首诗歌中用了多少介词、连词和否定式表达。1893年，Sherman发表了一部著作《文学分析学：关于如何对英语散文与诗歌进行客观研究的手册》。《科学》杂志发表过一篇书评，称此书是“划时代”的作品。在书里，他想做的不仅仅是通过定量分析来区分作者，如Mendenhall所尝试过的，而且涉及更多内容。比如，他在讲授英语文学演变的过程中，注意到了一桩事实：从14世纪的诗人乔叟到17世纪的莎士比亚，再到19世纪的爱默生，文学家们写出的句子越来越简单，摆脱了过去那种“凝重”和繁复。他从每个作家的作品中抽取500个句子，统计其平均句长。16世纪初的Robert Fabyan平均句长为63个单词，19世纪的爱默生平均句长只有20.5个单词。

他在搜集基础数据方面是下了苦功夫的，比如某个暑假里，他花了三周的时间，从麦考莱的五卷本《英国史》中整理出了4万多个句子中的单词。当然，有学生给他帮忙，因为他是教授嘛。

按现在的标准来看，这些数字人文学的先驱所做的工作都很简单，也不是那么成功，但是其开拓之功是不容否认的。有先进信息技术的助力，相信21世纪的数字人文学研究一定能别开生面。

《中国科学报》 (2014-10-10 第19版作品)

转载本文请联系原作者获取授权，同时请注明本文来自武夷山科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1557-834667.html

上一篇：[转载]沙漠不是沙尘源而是生态屏障
下一篇：[转载]为什么我们县出不了诺贝尔奖

收藏 IP: 106.120.35.*| 热度|

当前推荐数：16 推荐人：李杰 尤明庆 李伟钢 陈小润 曹聪 刘钢 陈筝 汤建民 章成志 蒋迅 史晓雷 魏瑞斌 杨正瓴 刘全慧 强涛 JIANHUN

该博文允许注册用户评论请点击登录评论 (5 个评论)

IP: 111.2.47.* | 赞 +1 [3]俞立平 2014-10-12 12:03: 红楼梦还不能算是大数据

IP: 101.231.92.* | 赞 +1 [2]yangb919 2014-10-11 17:27: <红楼梦>的作者分析是很有名的例子; 武夷山回复杨波：不过这是借助计算机的。19世纪的这些开拓者靠手工统计运算，了不起。
2014-10-11 17:401 楼（回复楼主）赞 +1 |

IP: 222.88.196.* | 赞 +1 [1]尤明庆 2014-10-11 06:58: 我们的句子似乎越来越长。
短句子有力量，只是不容易写。; 武夷山回复尤明庆：句子变长是语言欧化的表现之一。
2014-10-11 08:231 楼（回复楼主）赞 +1 |

1/1 | 总计:3 | 首页 | 上一页 | 下一页 | 末页 | 跳转

返回顶部

武夷山

扫一扫，分享此博文

武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员；南京大学信息管理系博导

博文

历史上的文学大数据分析

当前推荐数：16 推荐人：李杰 尤明庆 李伟钢 陈小润 曹聪 刘钢 陈筝 汤建民 章成志 蒋迅 史晓雷 魏瑞斌 杨正瓴 刘全慧 强涛 JIANHUN

该博文允许注册用户评论请点击登录评论 (5 个评论)

武夷山

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员；南京大学信息管理系博导

博文

历史上的文学大数据分析

当前推荐数：16 推荐人： 李杰 尤明庆 李伟钢 陈小润 曹聪 刘钢 陈筝 汤建民 章成志 蒋迅 史晓雷 魏瑞斌 杨正瓴 刘全慧 强涛 JIANHUN

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

武夷山

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：16 推荐人：李杰尤明庆李伟钢陈小润曹聪刘钢陈筝汤建民章成志蒋迅史晓雷魏瑞斌杨正瓴刘全慧强涛 JIANHUN

该博文允许注册用户评论请点击登录评论 (5 个评论)