博文

【新智元笔记：语法糖霜论不值得认真对待】精选

已有 4809 次阅读 2016-5-2 06:14 |个人分类:立委科普|系统分类:观点评述| 语义, 毛毛虫, 句法, 乔姆斯基, 落地

董: 让我们记住Benjio的这段话：“【Yoshua】深度学习指向与乔姆斯基完全相反。深度学习几乎完全依赖通过数据进行的学习。当然，我们设计了神经网络的构架，但在大部分时候，它都依赖于数据、大量的数据。至于乔姆斯基，则是聚焦于固有语法和对逻辑的使用，而深度学习则关注意义。我们发现，语法只是像蛋糕上的糖霜一样的表层的东西。相反，真正重要的东西是我们的意图：我们对词的选择决定了我们要表达什么意义，而与词相联系的意义是可以被学习的。这些思想都与乔姆斯基学派的观点针锋相对。“看看5年以后还有什么话？

我查了查，上面Benjio的那段话的出处：

Machines that dream

Understanding intelligence: An interview with Yoshua Bengio.

By David BeyerApril 19, 2016

引文原文如下：YB: It suggests the complete opposite. Deep learning relies almost completely on learning through data. We, of course, design the neural net’s architecture, but for the most part, it relies on data and a lot of it. And whereas Chomsky focused on an innate grammar and the use of logic, deep learning looks to meaning. Grammar, it turns out, is the icing on the cake. Instead, what really matters is our intention: it’s mostly the choice of words that determines what we mean, and the associated meaning can be learned. These ideas run counter to the Chomskyan school.

把原文的最后一句送进流行机译系统，看看什么结果：These ideas run counter to the Chomskyan school.

Google的：这些想法背道而驰乔姆斯基学校。 Baidu的：这些想法背道而驰的乔姆斯基学派。

看起来，就是缺了那些“糖霜”！

白:

他们对数据和学习的偏爱，掩盖了一个重要的因素：想要学到的东西长什么样。这个“长什么样”决定了学习的上限，再多数据也突不破这个上限。

多层，循环，记忆，都是“长什么样”的创新。

从某种意义上，都是在向Chomsky靠拢

董:

还记得SMT刚兴起时，有两条宣称：1. 不需要语言学家的知识；2. 依靠标注的数据，主要是对齐的数据。随着数据的增加，翻译的能力将提高。那时是有监督的数据，这把该是无监督的数据了。这就连语言的句法也知识"糖霜”了。这回大概是真正的智能了。难怪李彦宏宣称人工翻译很快将被机器取代了。太狂了，就不是科学了。

白: 他们把数据的作用夸大了，把模型长什么样的作用低估了。

马: 公司的喜欢说大话炒作，媒体人又喜欢跟着他们吵

我:

那段话不仅仅是大话，而是让人怀疑他知道不知道自己在说啥。智人说梦罢，不值得认真对待，我不管他or她是谁。

另一方面，在一个非常狭窄的领域，一个非常粗线条的“语义落地”的应用，也许“毛毛虫”长成啥样的制约可以让位。这时候，大量的数据，从数据中学习一个黑箱子出来，是可能达到可用甚至超过人工水平的“落地”应用的。

只有细线条的语义落地，对语言的机制和结构有较强的依赖，这时候白老师说的再多的数据也突不破这个上限才真正是盲目迷信学习者的紧箍咒。

就举这个我最近五年一直在做的 sentiment analysis 为例。

如果领域是 movie reviews，语义落地的目标定为褒贬分类，可以利用 movie review 中读者打星作为客观度量，学出一个系统来与人工标注的打星看其吻合度。褒分类定义为四星五星，贬分类定义为一星或二星。实践证明这是一个适合机器学习的任务，如果打了星的训练数据足够多的话，其结果不亚于人工。可以做双盲试验。可是要是语义落地都是如此粗线条的“语义”目标的话，我们语言学家就不要吃饭了。

一旦语义落地的实际需要是细线条的，语言长成啥样的乔姆斯基或quasi-Chomsky的毛毛虫的机制开始发力：顺之者昌，逆之者stuck。

对于 sentiment 细线条，社会媒体舆情挖掘类应用大体是这样的语义落地需求：

（1）分类不够，还必须把类与 topic 相关联。 movie review 讨巧的地方是，topic 是外定的，在标题或meta data 里；而社会媒体的大多数 topic 是在文本里的；

（2）不能是 movie review 这样的狭窄领域，而是领域独立；

（3）不能是 movie review 这样的成段落的文本，而是以绝大多数短消息为主的社会媒体；

（4）不能是简单的褒贬情绪分类，必须找到情绪背后的种种理由。

多方面的来源（种种独立的benchmarking，加上我们自己的实验探索）表明，面对这样一个任务，即便单就（1）（2）（3）而言，目前的机器学习 sentiment 死定了，突破不了大约 60% 的“与topic关联的褒贬”精准度瓶颈（且不说（4）细线条的情绪背后的原因等的抽取挖掘）。而语言学的路子可以轻易达到 80%+ ，这就是语义落地时的差别度量，至少 20% 精准度差距。

现在的问题变成，在实际应用中，到底多大比例的语义落地需求是粗线条就可以满足，多大比例的应用必须对“语义”有比较深入的分析？

当年 Autonomy 那家公司做得蛮成功，其中主打的 text analytics 应该就是依赖粗线条的语义，分类聚类（classfication or clustering）之类，被倒霉的 HP 并购后，现在也不大听说了。否则还可以关注一下他们在粗线条落地的语用上到底能走多远，感觉上他们已经几乎做到极限了，充分采集了“低枝果实”。

MT 当然不属于粗线条的语义落地，好在有几乎无限的人工翻译积累作为带标大数据（labeled big data），所以一路高歌猛进到今天的百度MT、谷歌MT之类的普及程度。但是现在已经很清楚，it is stuck, 如果不在语言结构上下功夫的话。我是相信白老师和董老师的铁口的，本质上看，再多的数据也救不了它除非做某种改弦易辙。

戴:

如果结构化的方法也无法抽象出语义是如何结构化的话，最好的语法结构分析也是徒劳的。纯粹的机器学习方式至少可以绕过去这一步直接面向目标来处理。对于意图来说，并不是一定要理解意图是怎么构成的或者如何构成，直接针对意图使用的目的，比如返回合适的结果也是可以的

我:

“如果结构化的方法也无法抽象出语义是如何结构化的话”？？

太绕。说的是什么状况？

说到底不就是：通过结构还是绕过结构达到目标么？

戴:

简单地说就是你语法结构如何走向语义这一步，现在不都卡在这里吗。而且也没有充分的理由说明必须由语法结构走向语义，这只是语言学上的思维而已

我: 不能抽象谈语义：至少要分粗线条或细线条。现在的 argument 就是，绕过结构到达细线条的语义，基本走不通。这个语义就是落地的语义，语用阶段的语义。

戴: 问题是细线条的语义是什么？如果都不知道是什么，怎么说不能达到呢

我：我不是举例说明了粗细的区别了吗，还可以举更多的例。

戴: 以什么样的形式呈现？需要结构化吗

我: 估计是背景相差大，好像我们不在一个频道，因此对话很困难。

白: 老乔所说的logic form也不是狭义的逻辑，只是填坑的结构而已。连填坑的结构都不要，还好意思说是扔下逻辑直奔语义。

董: 如果有人写一篇论文，批评“语法=糖霜论“的，我不知道如果投稿给ACL或COLING，会通得过审阅吗？记得在我国的计算语言学研究中，也曾有过为多数人不太赞同的”学派“，但几乎没有一届国内的学术大会会完全枪毙那些论文的。学术研究要允许真正的百花齐放，不可以”squeeze out“（Church语）。这就是为什么我不赞成现在NLP界的风气。

白: 江湖归江湖，落地归落地

【相关】

《立委随笔：语言自动分析的两个路子》

泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索

泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑

【立委科普：基于关键词的舆情分类系统面临挑战】