下载安装以后(我都不知道它存到哪儿去了),它会自动出现在word的工具栏里(三个小图标),点击编辑的那个,它就自动分析当前的word文件。
分析有三个指标:bog index,ave sentence, passive index。
Bog index代表文章的“可读性”,定义为
Bog Index = Sentence Bog + Word Bog – Pep
Sentencebog是句子长度决定的,等于平均句长的平方除以最大句长(long sentence limit,软件似乎设定为35个字,有点儿小气)。
Wordbog关乎用词,如难词、大词、专词等,也包括被动语态,这些“毛病”的总和乘以250(这个系数选得别有用心啊,么不是249呢?),除以文章的总字数,就是wordbog。
Peg是好东西,如很好的论据和问题,有趣的表达形式等。
Bog指数包括了决定一篇文章的主要元素:单词、句子和表达形式。根据Stylewriter的标准,好文章应该是句子短小精悍,用词干净利落,而且尽量少用被动语态。反过来,句子长,词语偏,被动语态多,Bog指数就越大,文章也就越烂。好文章的bog应该在20以下。
【顺便说一句,国内外有些刊物明确要求不许在科研论文里用第一人称,似乎那样才显得“客观”。但现在几乎所有讲英文写作的书,都强调多用主动语态,Stylewriter甚至说,尽可能地删除你的被动语态——虽然主动语态不等于就说we do,但很多情形是免不了的。其实,大量国际刊物都在流行we do,随便找一家刊物,在短短的几行摘要里,就能找到好几个we。因为它们本来就是“我们”做的,而不是“客观地”被做的。在我看来,“我们”句型,不但陈述了事实,活泼了文字,也增添了科学的人文气息。让我们在中文里也大胆地歌唱,“我们做了……”!】
用Stylewriter来检验自己的一篇文章,bog为67,一般般(average);平均句长11.9,excellent;被动语态指数19,excellent。另一篇,bog更高,poor了,其余两个指标一样。看来,我的成绩顶多是一般般啦。
为证明我的一般般,我找了一个美国人的书稿,随便选几章来检验,bog是average,其他两项还不如我呢。
再看一篇New York Times的头版文章,bog是poor;一篇Washington post的短文,成绩也不好。这令我有些惊讶。不过,一篇Nature的新闻,指标却很好。
那么,经典作家的成绩呢?我随便测试了Bacon, Swift, Boswell, Dickens,散文、传记和小说都有。结果不错,bog都good,但也超过了20。除了Dickens,他们的句子都很短(小于10),有点儿偏短(too short)。从bog的计算公式可以看出,短句越多,bog成绩越好。所以,这几位大师的好成绩,未必是靠文章好换来的。其实,他们的句子并不都很短(Bacon好像真的短),而是插入语多,从句多,所以逗号多,才显得句子短(不知道系统如何识别?如果认句号,我的判断就错了?)——很多“短句子”读起来是相当费力的。我没找到Hemingway的,他的电报英文大概能得一个好分数。
如果有工夫,我还想试试Faulkner和Joyce。老福的一篇小说有个1600字的句子,Ulysses最后一章,40页没有一个标点。不知道Stylewriter将如何为它们打分儿。
还有一点有趣的发现,从句子分析的柱状图看,我的句子好像满足负幂分布:字数为n的句子数N满足
N (n) ~ power (n, -p)
可惜我不会把界面上的统计数字和图表导出来,不知道是不是能用幂函数来拟合。我原以为这是自然的结果,大概每个作者都会“自组织地”呈现负幂律,只是指数不同而已。但是,考察了古今中外不同作者的文章后,才发现我的情形有点儿另类,也许纯粹是巧合。不过,能巧合一个普遍的自然法则,我还是有几分窃喜。(其实,不可能真有那么多短句的,肯定是把作者和参考文献都算进来了。所以这个巧合没有意义!另外,我没有看到正态分布的例子,有点儿意外。)
尽管不同作者的句子分布模式不同,但同一个作者的分布,大体上是不变的,那几个指标也大致“守恒”——Stylewriter的指标虽不能判别文章的优劣,却可能鉴别作者的真假。过去有很多通过文字统计来鉴定作品的方法,现在计算机发达了,类似的鉴别方法应该更多,也更可靠。
我向来不信机器能做翻译,能写作文,能做文字的裁判。不过,虽然Stylewriter不能作为文章好坏的判官,但对我们这些土人来说,它还是有帮助的。特别好的一点是,它会将它认为bog的每句话和每个词都标记出来,计算每一个指标,如句子太长,扣分儿;用词不好,扣分儿;缩写不对,扣分儿;还建议替换的词……我们可以本着“有则改之无则加勉”的态度来接受它那天真而严格的批评。