武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

历史上的文学大数据分析

已有 4874 次阅读 2014-10-11 06:23 |个人分类:科学计量学研究|系统分类:人文社科

历史上的文学大数据分析


 ■武夷山

【虽然大数据概念近些年才热起来,但早在19世纪,人们就见到了文学作品的定量分析的身影。】

2014年7/8月号的《美国科学家》杂志发表了Brian Hayes的文章《文学与大数据一相逢》。他说,虽然大数据概念近些年才热起来,但早在19世纪,人们就见到了文学作品的定量分析的身影。

在计算机尚未问世时,英国统计学家G. Udny Yule和C.B. Williams就尝试过如何利用句长的差异来表征不同的文学风格,识别不同的作者。1964年,出现了史上第一个主题为“文学数据处理”的学术会议,参会者有150人,讨论题目包括“计算文体学”,还有在计算机辅助下就弥尔顿对雪莱之影响作出估计。更早的时候,Frederick Mosteller和David L. Wallace就曾对《联邦党人文集》中常见词的词频(例如also、an、by、of)进行统计分析,试图确定哪些文章是汉密尔顿写的,哪些文章是麦迪逊写的。

Brian Hayes特别想介绍的是19世纪美国的两位“数字人文学”先驱人物。一位叫Thomas Corwin Mendenhall(1841~1924),是科学家,曾任印第安纳州罗斯理工学院的院长、美国国家科学院院士和美国科学促进会会长。1887年,他在《科学》杂志发表一篇文章《文章的特征曲线》。他认为,正如光谱线的模式可以表明存在着某化学元素一样,通过“词谱”或“特征曲线”也能表征一篇文章。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象,看看两人的“词谱”差异大不大,结果发现,差异不足以区分开两个作者。

另一位先驱人物叫Lucius Adelno Sherman(1847~1933),他的博士论文题目是《古英语诗歌“猫头鹰与夜莺”的语法分析》,从中可以看出他喜欢定量研究。例如,他统计了这首诗歌中用了多少介词、连词和否定式表达。1893年,Sherman发表了一部著作《文学分析学:关于如何对英语散文与诗歌进行客观研究的手册》。《科学》杂志发表过一篇书评,称此书是“划时代”的作品。在书里,他想做的不仅仅是通过定量分析来区分作者,如Mendenhall所尝试过的,而且涉及更多内容。比如,他在讲授英语文学演变的过程中,注意到了一桩事实:从14世纪的诗人乔叟到17世纪的莎士比亚,再到19世纪的爱默生,文学家们写出的句子越来越简单,摆脱了过去那种“凝重”和繁复。他从每个作家的作品中抽取500个句子,统计其平均句长。16世纪初的Robert Fabyan平均句长为63个单词,19世纪的爱默生平均句长只有20.5个单词。

他在搜集基础数据方面是下了苦功夫的,比如某个暑假里,他花了三周的时间,从麦考莱的五卷本《英国史》中整理出了4万多个句子中的单词。当然,有学生给他帮忙,因为他是教授嘛。

按现在的标准来看,这些数字人文学的先驱所做的工作都很简单,也不是那么成功,但是其开拓之功是不容否认的。有先进信息技术的助力,相信21世纪的数字人文学研究一定能别开生面。

《中国科学报》 (2014-10-10 第19版 作品)

 




https://blog.sciencenet.cn/blog-1557-834667.html

上一篇:[转载]沙漠不是沙尘源而是生态屏障
下一篇:[转载]为什么我们县出不了诺贝尔奖
收藏 IP: 106.120.35.*| 热度|

16 李杰 尤明庆 李伟钢 陈小润 曹聪 刘钢 陈筝 汤建民 章成志 蒋迅 史晓雷 魏瑞斌 杨正瓴 刘全慧 强涛 JIANHUN

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

IP: 111.2.47.*   | 赞 +1 [3]俞立平   2014-10-12 12:03
红楼梦还不能算是大数据
IP: 101.231.92.*   | 赞 +1 [2]yangb919   2014-10-11 17:27
<红楼梦>的作者分析是很有名的例子
回复  不过这是借助计算机的。19世纪的这些开拓者靠手工统计运算,了不起。
2014-10-11 17:401 楼(回复楼主) 赞 +1 |
IP: 222.88.196.*   | 赞 +1 [1]尤明庆   2014-10-11 06:58
我们的句子似乎越来越长。
短句子有力量,只是不容易写。
回复  句子变长是语言欧化的表现之一。
2014-10-11 08:231 楼(回复楼主) 赞 +1 |

1/1 | 总计:3 | 首页 | 上一页 | 下一页 | 末页 | 跳转

扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-12 20:55

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部