《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【Church - 钟摆摆得太远(2):乔姆斯基论】 精选

已有 4333 次阅读 2013-7-29 18:17 |个人分类:立委科普|系统分类:科普集锦|关键词:NLP,反思,理性主义,经验主义| NLP, 反思, 理性主义, 经验主义

【立委按】

NLP主流的傲慢与偏见】系列刚写了三篇。中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。董老师说,主流中有识之士对深陷成见之中的NLP一边倒的状况,有相当忧虑和反思。

Church (2011) 对NLP的回顾和反思的文章【钟摆摆得太远】 (A Pendulum Swung Too Far)是一篇杰作,值得反复研读。文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下,考察NLP最近20年的历程以及今后20年的趋势。它的主旨是,我们这一代NLP学者赶上了经验主义的黄金时代(1990迄今),把唾手可得的果子统统用统计摘下来了,留给下一代NLP学人的,都是高高在上的果实。20多年统计一边倒的趋势使得我们的NLP教育失之偏颇,应该怎样矫正才能为下一代NLP学人做好创新的准备,结合理性主义,把NLP推向深入?忧思溢于言表。原文很长,现摘要译介如下。


【Church - 钟摆摆得太远(2)】

立委编译自:K.Church 2011.  A Pendulum Swung Too Far.  Linguistics issues in Language Technology,  Volume 6, Issue 5.


Abstract: Chomsky revisited by Church 2007: Chomsky's criticism on n-grams and finite-state technology. The criticism is theoretically valid. But it actually does not pose a real challenge because the theoretically more powerful models such as CFG have not established themselves as a competitive alternative. But Church's point is to revisit the limitation and expect breakthrough in time beyond the statistical approach based on ngrams and finite state, not necessarily returning to the so-called more powerful formalisms.


皮尔斯、乔姆斯基和明斯基

毋庸讳言,我们所反抗过的伟大的理性主义者如皮尔斯、乔姆斯基和明斯基(Pierce, Chomsky and Minsky, 以下简称PCM),对人工智能领域的现状不会感到满意。当然,另一方面,今天此领域的领军人物大多也不乐意看到PCM 理性主义的复兴。一位领域的带头人听说我在写这篇文章,讥讽道:“皮尔斯对我们现在有什么意义?”PCM 的观点在当年就饱受争议,现在依然如此,因为它们导致一些领域包括语音、机器翻译和机器学习多次进入了严重的资金寒冬。

本文主要感兴趣的是PCM三位大师理性主义的共同主线。不过也必须指出,这三位大师的声音并不完全一致。在信息论方面他们有很大分歧。皮尔斯对香农和乔姆斯基二位均大加赞佩,尽管乔姆斯基对香农在信息论方面的许多工作持反对意见。很显然,这些观点并不能清楚地划分成不同学派(例如理性主义和经验主义),学派之内并非完全一致,学派之间也不是处处相异。

关于智能亦有很多不同意见。明斯基是人工智能的创始人之一,而皮尔斯一直是直言不讳的批评者之一。他说:所谓人工智能真乃愚蠢之极7。皮尔斯反对任何试图接近人类智能的东西,当然包括人工智能,也包括机器翻译和语音识别。皮尔斯主持了著名(或者说是臭名昭著)的语言自动处理咨询委员会(Automatic Language ProcessingAdvisory Committee, ALPAC) 报告。这一报告直接导致了机器翻译的资金寒冬[27]。皮尔斯也曾为《美国声学学会会刊》(JASA ) 撰写富有争议的通讯“语音识别往哪里去”(Whither Speech Recognition?),给语音识别研究的资金造成令人寒心的困境。

本文重在回顾他们的共同主线,而不是他们的分歧。PCM 对当年流行现今复兴的一系列经验主义方法,均提出过挑战。他们的反对意见对于许多当今流行的方法都有影响,包括模式匹配、机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法模型)和语音识别(隐式马尔可夫模型(hidden Markov models, HMMs) 以及条件随机场(conditional random fields, CRFs))。

学生们需要学会如何有效地使用流行的近似方法。大多数近似方法基于简化的假设,这些假设在多数情况下有用,但并非万能。例如,N 元文法能捕捉许多依存关系,但当依存范围超过n个词距离的时候,N 元文法则无能为力。同理,线性分离机在很多情况下可以区分正例和反例,但对无法线性区分的样例自然无效。许多这类限制显而易见(由其本性所决定),但即便如此,相关的优劣争论有时仍然很激烈。有时候,争论的某一方不再被写进教科书,逐渐被遗忘,只能期待下一代学者去重新发现或复兴。

乔姆斯基论述了N 元文法的局限,明斯基论证了线性分离机的局限。也有学者对于其他近似方法的种种局限提出看法。例如,图基(Tukey) 教导学生如何有效使用回归算法[34]。他鼓励学生测试各种正态假设的偏离现象。离群点(outliers) 是回归算法常见的麻烦来源,正如偏离直线的弯曲残差(bowed residuals)。很多人提出了种种绕行的补救方案。一个常见的手段是对数据做非线性变换,如对数变换。这些技巧把问题转化为另一个问题,使其偏离假定的麻烦有所减少。

乔姆斯基的反对意见

如前所述, 乔姆斯基指出N 元文法不能捕捉远距离依存关系。虽然现在回想起来似乎是显然易见的,然而在当时,香农-麦克米兰- 布雷曼熵定理(Shan-non-McMillan-Breiman theorem)令人非常兴奋,对这条定理的解释是:在极限条件下,只要稍加制约,N 元文法模型足以捕捉字符串的所有信息(譬如英语的句子)。乔姆斯基认为,在极限条件下这条定理也许是正确的,但是N 元文法模型远远不是能概括许多语言事实最简洁的模型。在实际系统中,我们往往必须将N 元文法严格限制在某个(小的)固定的值k 上(例如三元或许五元)。这种限长的N 元文法模型系统可以捕捉到很多语法关系一致性方面的现象,但并非全部。

我们应该将这场论辩教给下一代学者,因为他们可能将不得不比我们更加认真地对待乔姆斯基的反对意见。我们这代人很幸运,可以摘取到大量的低枝果实(也就是那些可以用较短N 元文法捕捉到的语言现象)。但是,下一代学者将没有这么幸运,因为在他们退休之前,那些捕捉得到的语言事实大多将被捕捉已尽,因此,他们很可能将不得不面对那些简单N 元近似方法无法处理的语言现象。

中心嵌套论(Center-Embedding)

乔姆斯基不仅反对N 元文法模型,也反对有限状态(finite state) 方法,其中包括很多目前流行的方法,如隐式马尔可夫模型和条件随机场。

有限状态方法超越了N 元文法,它不仅可以捕捉一切N元文法可以捕捉到的语言现象,而且可以捕捉超越N 词距离的语法依存关系。例如,下列文法表现了主谓在数上一致的关系,名词和动词应该一致,二者同为单数(sg) 或者同为复数(pl)。这样的文法可以捕捉超过N 词距离的依存关系。

S → Ssg
S →Spl
Ssg → NPsg VPsg
Spl → NPpl VPpl
NPsg → … Nsg …
NPpl → … Npl …
VPsg → … Vsg …
VPpl → … Vpl …

最大的问题是,此文法是否需要无限的内存。为了使这场辩论严谨,乔姆斯基引入中心嵌套的概念,并创建了现今被称作乔姆斯基层级体系(Chomsky hierarchy)的理论。

乔姆斯基层级体系不仅在语言学,在其他许多领域,例如计算机科学9,也具有非凡的影响力。克努特(Knuth) 坦承他在1961 年的蜜月期间读到乔姆斯基的文章,发现它是如此“奇妙的事情:在这个语言的数学理论中,我可以感受到一个计算机程序员的直觉”。

乔姆斯基指出,乔姆斯基层级体系与相应的生成能力之间具有一种简单的对应关系:

类型0 > 类型1 > 类型2 >类型3

递归可枚举文法 > 上下文有关文法 > 上下文无关文法 > 正则文法

特别是上下文无关文法可以涵盖并超越正则文法;有一些需要无限内存(栈)所做的事情,有限内存就做不到。乔姆斯基的论证是,中心嵌套是上下文无关与有限状态之间的关键区别。也就是说,当(且仅当)一个文法具备中心嵌套能力,它才需要无限内存(栈)。否则就可以用有限内存(有限状态机)处理。

3

更正式地讲,如果一个文法中具有一个可以生成形如xAy的非终结节点A,其中x 和 y 均为非空,那么这个文法就是中心嵌套。如果x 或 y 为空,则可以得到较简单的左杈或右杈的嵌套。左杈嵌套和右杈嵌套均可在有限内存(有限状态机)中处理,而不像中心嵌套那样需要无限内存(栈)。

中心嵌套的一个简单例子是一个括号嵌套的文法:

< expr > → (< expr >)

括号嵌套文法是中心嵌套的一个特殊案例,其中 x 是左括号,y 是右括号。一个栈结构可以很容易地记录左括号与右括号之间的远距离依存关系,但这需要无限的内存。最大的问题是有限内存是否可以处理括号嵌套文法。乔姆斯基证明这是不可能的。更一般的表述是,有限状态方法无法捕捉中心嵌套。

乔姆斯基用下列样例论证英语为中心嵌套语言,因此超越了有限状态方法(如隐式马尔可夫模型)的捕捉能力。乔姆斯基假定英语具有一个非终结节点 S(代表句子或从句),其自生成的时候在它的左右两侧可以添加非空内容,如下所示:

  1. S → If S, then S.

  2. S → Either S, or S.

  3. S → The man who said that S, is arriving today.

关于中心嵌套的语言事实一直存在争论。本文审阅者之一反驳中心嵌套所用的几点论证,我当年在我的硕士论文中也提过类似的质疑。语料库中很难找到超过两层或三层的中心嵌套11。不过,乔姆斯基的说法并非没有道理。想要描述上述语言事实,采用允许任意中心嵌套的文法较之采用仅有一两层中心嵌套的文法可能更容易和简洁。

到目前为止,N 元文法和有限状态方法等近似模型足够我们使用。虽然这些近似模型都有其明显局限性,但迄今难以找到更有效的替代方法。尝试捕捉不常见的远距离关系也许可以处理一些不常见的边缘案例,但它们带来的问题往往比解决的问题要多。工程师们发现,处理好常见的短距离依存关系比处理不太常见的远距离依存关系更为重要。至少,这是我们这一代人的体验。

尽管如此,我们还是应该为下一代学者做好准备,使他们有可能比我们做得更好。我们应该教给下一代认识目前比较流行的各种方法的长处和短处。他们需要了解我们所知道的最成功的近似方法,但他们也需要了解其局限性。下一代学者很可能会找到改进N 元文法的办法,甚至可能发现超越有限状态的方法。


【NLP主流的反思:Church - 钟摆摆得太远(1)】

【Church - 钟摆摆得太远(2):乔姆斯基论】

【Church - 钟摆摆得太远(3):皮尔斯论】

 【Church - 钟摆摆得太远(4):明斯基论】

【Church - 钟摆摆得太远(5):现状与结论】 

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-712315.html

上一篇:【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】
下一篇:米拉围脖:学文科的特权

2 李伟钢 孙学军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-21 00:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部