yuanyewei的个人博客分享 http://blog.sciencenet.cn/u/yuanyewei

博文

用SPSS软件揭开“韩寒真相”

已有 4606 次阅读 2012-3-13 17:58 |系统分类:观点评述| 软件, 方舟子, 统计学原理, 闭门造车, 韩寒作品

 新华书目报 科技新书目 2月16日
□瑶草
    近日来SPSS等统计分析软件因为韩方之争走红网络,我注意到,参与辩论的双方阵营没有一个人真的会使用这种软件分析文本。方舟子阵营曾发表的软件分析长微博,果壳网负责人庄小哥认为技术含量低下,不具备可探讨的价值。方舟子本人也曾经对笔者表示,他并非这方面的专家,不准备采用这种方法,文本细读已经足够。用统计分析软件分析韩寒作品与疑似代笔者,如韩仁均、路金波作品的异同,是下一步的考虑。也就是说,先确定有人代笔,再确定谁代笔。韩寒阵营则大喊冤枉,认为用理科生的手段分析文科问题是微波炉看电视云云。那么以统计学原理分析文学作品,渊薮在何方?
    1987年在中国的文艺理论界称之为“方法论”年,这一年随着“以控制论分析阿Q性格”等跨界分析文章发表,西方文艺理论纷至沓来,对中国传统的文艺分析方法进行了天崩地坼的变革,文艺理论专家化、学者化的国际热潮,终于彻底改变了中国文艺学闭门造车的现状。正是在这一年,同济大学的数学系陈大康教授听说,美国威斯康星大学的陈炳藻教授,利用概率论的方法研究《红楼梦》中虚字的出现规律得出结论,《红楼梦》后四十回也是曹雪芹写的。国内虽有议论,但并没有学者反驳这个结论,因为这个工作是用计算机统计的,而当时国内并没有电脑。那么是电脑错了么?
    陈大康不相信这个结论,他从数据抽取的角度,发现陈炳藻的分析十分粗糙,于是手工点数《红楼梦》中的虚字,因为没有电脑帮助,他的工作进行了一年多,发现了前八十回和后四十回迥异的用词规律。他的工作获得了学界一致的赞叹,他的论文被反复征引。陈大康随后进入了华东师范大学中文系,在这几乎可以与北大媲美的作家摇篮中(笔者与韩仁均都曾在此求学),一位外行的数学老师成为了系主任。对真理的追求是永无止境的,几十年间,不断有学者对陈大康的研究提出异议,或者独出己见,他们的研究大大发展了统计学在文学文本分析领域的应用。复旦大学的李贤平用模式识别和探索性数据分析的方法,分析《红楼梦》虚字并根据聚类结果绘制正视图和聚类树形图。值得一提的是,分析方法不仅局限于对古典作品的研究,北京外国语大学的施建军就将聚类分析研究拓展到瞿秋白和鲁迅的作品分析方面。如今对韩寒等在世作家作品的分析研究,正是此流派的一脉相承。
    SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代末研制。从数学上讲,统计软件大大简化了计算难度,提高了计算速度。但真正应用到文本分析上,还要看进行词频分析的操作者是否采取了科学、理性、严谨的方法,选取关键词是否合理、样本是否具有代表性。在对谈中笔者发现,方舟子对统计学文本分析的前世今生十分了解,包括传入中国前在西方分析莎士比亚作品的情况也很清楚。然而这种分析方法实操起来,需要细密的数理逻辑和深厚的文学素养,非多年专业运作的人员难于涉足,因此我们呼吁更多领域的专家参与到当世作家作品的讨论中来,庶几可以解开更多出版界的谜团。
 
http://a.xhsmb.com/html/2012-02/16/content_40534.htm

图为接受本人采访的方舟子



https://blog.sciencenet.cn/blog-535279-547386.html

上一篇:网络“反抄袭”硝烟再起 百余人剑指方舟子妻
下一篇:嘲笑权颠倒的谣言粉碎机
收藏 IP: 211.102.148.*| 热度|

1 孙友甫

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 21:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部