博文

【NLP主流的反思：Church - 钟摆摆得太远（1）：历史回顾】精选

已有 15906 次阅读 2013-7-29 07:53 |个人分类:立委科普|系统分类:科普集锦| NLP, 统计, 规则, 理性主义, 经验主义

【立委按】

【NLP主流的傲慢与偏见】系列刚写了三篇。中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。董老师说，主流中有识之士对深陷成见之中的NLP一边倒的状况，有相当忧虑和反思。

Church (2011) 对NLP的回顾和反思的文章【钟摆摆得太远】（A Pendulum Swung Too Far）是一篇杰作，值得反复研读。文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下，考察NLP最近20年的历程以及今后20年的趋势。它的主旨是，我们这一代NLP学者赶上了经验主义的黄金时代（1990迄今），把唾手可得的果子统统用统计摘下来了，留给下一代NLP学人的，都是高高在上的果实。20多年统计一边倒的趋势使得我们的NLP教育失之偏颇，应该怎样矫正才能为下一代NLP学人做好创新的准备，结合理性主义，把NLP推向深入？忧思溢于言表。原文很长，现摘要译介如下。

【Church - 钟摆摆得太远】（刊登在：【计算机学会通讯】2013年第12期（总第94期），链接如下）：

http://www.almosthuman.cn/2015/10/21/mjsx2/#rd

http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2774275247149

立委译自：

K.Church 2011. A Pendulum Swung Too Far. Linguistics issues in Language Technology, Volume 6, Issue 5.

译者按：肯尼斯·丘吉(Kenneth Church) 是自然语言领域的泰斗，语料库语言学和机器学习的开拓者之一。丘吉的这篇长文《钟摆摆得太远》(A Pendulum Swung Too Far) 是一篇主流反思的扛鼎之作。作者在文章中回顾了人工智能发展中，理性主义和经验主义各领风骚此消彼长的历史规律，并预测了今后20 年自然语言领域的发展趋势。文章的主旨是，我们这一代学者赶上了经验主义的黄金时代（1990 年迄今），把唾手可得的低枝果实采用统计学方法采摘下来，留给下一代的都是“难啃的硬骨头”。20 多年来，向统计学一边倒的趋势使得我们的教育失之偏颇。现在应该思考如何矫正，使下一代学者做好创新的准备，结合理性主义，把研究推向深入。丘吉的忧思溢于言表。丘吉预测，深度网络的热潮为主流经验主义添了一把火，将会继续主导自然语言领域十多年，从而延宕理性主义回归的日程表。但是他认为理性主义复兴的历史步伐不会改变。他对主流漠视理性主义的现状颇为忧虑，担心下一代学者会淹没在一波又一波的经验主义热潮中。

实用主义动机

20 世纪90 年代，经验主义的复兴是一个激动人心的时刻。我们从来没有想到，我们的努力会如此成功。当时，我们想要的只不过是一席之地而已。在当时流行的各项研究之外，我们所想的只是为不同于当时其他研究的工作争取一点空间。我们成立了SIGDAT为这类工作提供一个论坛。在1993 年成立之初，SIGDAT只是一个相对较小的关于大语料库的会议论坛，后来演变成规模较大的EMNLP 会议。起初，SIGDAT 会议在很多方面（规模、主题和地理范围）都与主流ACL大会非常不同。然而若干年后，这些区别已经很大程度上消失了。两个会议靠拢，这让人感到高兴。但我们可能是太成功了，我们不仅成功地让我们感兴趣的工作登堂入室，没给其他工作留下多少空间。图1 展示了从理性主义到经验主义的这一戏剧性转变。这种转变还在继续，似乎看不到尽头。

根据霍尔(Hall) 等人的文章，这种转变始于1988 年布朗 (Brown)和丘吉的工作。霍尔等人的依据是对ACL 文集的分析，文献包括自20 世纪70年代至今在计算语言学领域发表的总计16500 篇论文。

但是，如果我们考虑一个更长的时间段，追溯ACL 文集以前的文献，我们看到的是一幅非常不同的画面，如图2 所示。更加显著的趋势是经验主义与理性主义之间的振荡，像钟摆一样，每隔二十多年来回振荡一次：

● 20世纪50 年代：经验主义（香农(Shannon)、斯金纳(Skinner)、弗斯(Firth)、哈里斯(Harris)）；
● 20世纪70 年代：理性主义（乔姆斯基(Chomsky)、明斯基(Minsky)）；
● 20世纪90 年代：经验主义（IBM 语音团队(IBM Speech Group)、AT ＆ T 贝尔实验室(AT&T Bell Labs)）；
● 2010年代：回归到理性主义了吗？

本文将回顾一些我们这一代人曾经“反叛”的理性主义观点。遗憾的是，我们这一代是如此成功，以至于这些理性主义观点被人们忘却了（如果我们接受图2给出的预测，那么现在正是理性主义应该复苏的时期）。有些重要的理性主义代表人物如皮尔斯(Pierce) 在当今流行的教科书里甚至没有提及。如此下去，下一代人可能没有机会听到理性主义一方辩论的声音。特别是，如果理性主义立场在今后几十年逐渐流行，理性主义者可以提供很多值得重视的见解。

图1　理性主义到经验主义的转变令人惊讶（而且毫无争议）。该图是基于鲍勃·摩尔(Bob Moore)和弗雷德·贾里尼克(Fred Jelinek)对ACL会议的独立调查（私人通信）

是什么促使20 世纪90 年代经验主义的复兴？我们当时在反抗什么？经验主义复兴实际上是受到了实用主义考量的推动。学术界当时正埋头研究自然语言中面临的巨大挑战，例如完备人工智能(AI-complete) 的难题和远距离的依存关系。而我们所提倡的是从务实的角度来先针对一些较简单的、较有可能求解的任务，例如词性标注。当时数据的获得变得前所未有的方便。我们能用这些语料数据做些什么呢？我们认为，做成一些简单的事情比根本不做强。让我们去摘取一些低枝的果实，让我们利用近距离依存关系做我们能做的事情。虽然那不能解决整个问题，但还是让我们专注于我们能做什么，而不是我们不能做什么。玻璃杯有一半是满的（而不是已经空了一半）。

图2：对文献不寻常的解读，其中图1所示的趋势（此处以红点表示）是每隔20多年更大振荡的一部分。注意红点所示的是实际数据，而振荡曲线所示意的趋势只是为了说明一个观点

我们当时是这样记述这段历史的：

“20 世纪90 年代重现了具有20 世纪50 年代风格的语言分析的经验主义及其统计方法。50 年代是经验主义的高峰期，主导了从心理学（行为主义）到电子工程（信息论）一系列广泛的领域。当时语言学的通行做法是，不仅仅依据词义，还要基于它与其他词共同出现的情形来划分词类。50 年代英国语言学领域的领袖人物费思(Firth)用一段令人难忘的话总结此方法：‘通过一个词周围的词来了解这个词的意义。’遗憾的是，受一系列重大事件的影响，50年代后期和60年代早期，经验主义式微。这些重大事件包括乔姆斯基(Chomsky) 在《句法结构》(Syntactic Structures ) 中对N 元文法 (n-grams) 的批判，明斯基与帕佩特(Papert) 对神经网络的批判。
经验主义复兴最直接的原因也许是大量数据可用：文本从来没有这么丰富过。10 年前，搜集了100 万词的布朗(Brown) 语料库就被弗朗西斯(Francis) 和库塞拉(Kucera) 认为是大数据，但即使在那时，也有更大的语料库，如伯明翰(Birmingham) 语料库。如今，许多地方的文本样本已经达到上亿甚至几十亿词量……。通常称为文本分析的数据密集型语言研究方法采取的是实用主义手段，非常适合近来被强调的数值评估和具体的任务。文本分析强调对非受限文本(unrestricted text) 的广泛覆盖（尽管可能肤浅），而不是对于（人为）限定领域的深度分析。”

寒冬

20世纪90年代早期，研究界发现应该注重务实方法，原因之一是该领域当时正处于严重的资金寒冬，史称第二季人工智能寒冬(AI winter of1987~1993)。在又一次资金萧条到来之际，研究共同体比较容易接受一种更加现实的、结果更可靠的新方法。根据维基百科资料：

“在人工智能的发展历史中，所谓人工智能寒冬是指社会对人工智能研究的资助和兴趣消减的时期。许多新兴技术都经历了从狂热、失望到资金削减的过程（例如历史上的铁路大开发以及网络泡沫），但是人工智能的问题更加突出。这种模式已经发生过许多次了：
● 1966 年：机器翻译的失败；
● 1970 年：放弃人工智能联接主义(connectionism) ；
● 1971~1975 年：美国国防部高级研究计划局(DARPA) 对卡耐基梅隆大学语音理解研究项目的失望；
● 1973 年：莱特希尔(Lighthill)人工智能评估报告(Lighthill Report)发表之后，英国对人工智能研究资助的大幅削减；
● 1973~1974 年：DARPA 削减对人工智能学术研究的资助；
● 1987 年：Lisp 机市场崩溃；
● 1988 年：战略计算规划(the Strategic Computing Initiative) 取消了进一步资助人工智能的计划；
● 1993 年：专家系统慢慢跌入低谷；
● 1990 年代：第五代计算机项目的原始目标黯然淡出视野，以及被牵累迄今的人工智能的坏名声。
人工智能经历的最糟糕的时间段是1974~1980 年和1987~1993 年。有时人工智能寒冬指的就是两者之一（或两者的某个时间段）。”

寒冬常常紧跟着过度的乐观主义，例如西蒙(Simon)在文献[30]中提到的：