博文

《AI 理性主义的终结是不可能的吗》

已有 3797 次阅读 2020-7-20 14:23 |个人分类:立委科普|系统分类:科研笔记| 人工智能, 理性主义, 经验主义, 符号主义

这注定是一本小众冷书。但愿所传承创新的符号自然语言学术，丝相连、藕不断。有如人工智能理性主义的潮起潮落，庶几留下一声历史的回响。谁知道呢，五十年河西，“神经”恐非历史的终结。钟摆回摆的时节，历史或被重新发现。摘自《写在NLP小书出版之时》

宋：@wei 祝贺立委心血之作付梓！做科学，真知灼见；讲科学，深入浅出！

王：祝贺李老师出书，一定拜读！我觉得符号主义的香火是不会断的，因为无论符号主义还是统计主义，本质都是数学建模，都来源于对实际语料的考察(人工的或自动/半自动的)，而且都有加入人类主观知识的操作空间(包括调整模型，引入新的变量或调整参数)。更深层次的争论点，也许出在“计算语言学/自然语言处理需不需要(或者有没有可能脱离)人类总结的关于语言的知识”这个问题上？

李：@王，谨慎（不）乐观。我是这样看的。

先回顾一下亲身体验。当统计MT取代规则MT的时候，虽然知道是大势所趋，心里是不服的。统计MT虽然鲁棒，普适性强，但质量难以恭维，心里总在嘀咕，给我资源我会杀回来的。但是到了神经MT的时代，那是彻底服了。给我再多的资源，我也无法逼近神经MT；这不是说规则系统不能对神经MT有补充、改良的作用，但最多也就是帮助神经擦屁股，担当不了主力。擦屁股的地方当然有，譬如帮助克服神经张冠李戴指鹿为马的毛病，或者是在神经使不上力气的地方，譬如领域场景没有足够翻译数据可供训练的时候。

如果以MT作为前车之鉴，面对神经，以前对于规则的自信的确受到了挑战和挫折。但是好在 MT 是个特殊的 case，不但有几乎无穷的免费的人工翻译的平行数据做训练，还有更加无穷无尽的自然语言原始语料可做语言模型（我们每说一句话，就是做了一次标注，标注什么是合法的语言现象）帮助语句通顺。而规则系统的语言生成根本上是在那里拿每个词的译法凑，无论如何达不到语言模型的通顺度。

其他的 NLP 任务和场景呢？这就回到了对 AI 理性主义命运的看法。

不好说。现在有预训练，也是有无穷无尽的数据。理论上讲，等到预训练足够丰富发达，后面的语义落地就可以变得很薄。预训练好比是代替或隐含了句法结构解析。而且，词典习得（lexicon acquisition）乃至本体知识库的习得（ontology acquisition）与构建，很大程度上也是可以直接从原始数据开始的，最多是插入一些有限的快速人工校验。这样看来，预训练+词典习得+神经，保不定哪一天“终结”了NLP理性主义，也不是不可想象的。

果如此，是值得庆贺的。钟摆业已升天，使命已然完成，有什么必要盼它回摆呢？

谨慎乐观也是谨慎不乐观。因为迄今为止，垂直领域呼唤语言技术，嗷嗷待哺；这边厢闹得动静那么大的神经就是使不上力气，这种事儿我们在第一线看得多了。垂直领域NLP的主流，没标注数据就傻眼。

宋：理性主义永远不会灭绝。理性主义代表人类对于未知的好奇和探求，包括对于语言规律的好奇和探求，这是人类社会发展的基本动力之一。

詹：其实，“理性主义”跟“经验主义”这样的对立方式，至少在顾名思义的层面上，容易误解：好像凭经验办事，不够理性似的。要搞清楚这两个名词的来历，可能需要到哲学故纸堆里找半天。

从某种意义上，预训练模型应该也是比较理性的吧。语言学追求的是范畴化的知识表示，是可理解的清晰的语言模型（因果关系）。机器学习追求的是数据（输入：输出）之间的函数拟合关系（相关关系）。二者也不是矛盾对立的。

大数据+深度学习可以带来机器翻译的效果有明显提升，但同样明显的是，它还是没有理解句子的意思。要戏弄机器翻译系统，仍然是轻而易举的事情。这个不像围棋，深度学习的围棋智能，人类已经干不过机器了。语言不是竞争的游戏，而是合作的游戏。

在理论层面，我丝毫看不到预训练模型有什么能像人类那样理解语言的机制。人类理解语言有两个层次：（1）显式符号层次；（2）隐式认知层次。语言学，尤其是基于结构主义分布思想的语言学，基本上就是对显式符号层次的观察，并将语言知识范畴化、系统化。语言学家做的工作，跟预训练模型做的工作，没有本质的区别，只是分布颗粒度的区别。在细颗粒度尺度下，神经网络对符号分布的刻画（抛弃范畴化的分布）比语言学家的描述更准确。但是，”分布“ 跟 “语义”的差距还是很大的。“分布”只是冰山一角，看得见的“言语”。“隐藏的认知”可能才是“语言”的真相（全貌？）。

任正非：发展芯片，光砸钱不行，还要砸人
2019年05月21日 09:52 新浪科技综合
https://tech.sina.com.cn/it/2019-05-21/doc-ihvhiews3388256.shtml

要从大数据里学到“砸钱”、“砸人”、“砸锅”、“砸饭碗”的“意思”，我还看不到头绪。一个亿广告砸出一百个亿的销售额。人如何理解“砸”的意思的？是靠分布吗？

梁：先有了“砸了一大笔钱”之说，然后才类比地理解了什么叫“砸人”，[Chuckle]

詹：是，理解一定需要“类比”能力。不理解也可以翻译。现在的NMT机器翻译经常能翻得非常好。

梁：“砸”，我的想象是，一个人举起一个很重的东西，拼命向下摔。[Grin] 砸锅砸碗是本意，

詹：“砸锅”已经从本意引申出去了。“砸碗”也可以不真的砸“碗”了[Grin]

梁：如果一件事情被我搞砸了，那这件事对我来说应该是比较重要的事。

詹：真真假假，虚虚实实，语言不是“坚硬之物”，信息符号常常可以不费力气的“揉巴”变形。是的。“砸”里边有“力度大”这个“语义”。我怒砸一块钱赌特朗普连任。

梁：人的认知结构里，有重要不重要之说，很多词（概念）围绕着“重要”这个概念 build 起来。

詹：是的。一是“重要”，二是“举重若轻”。这两样加在一起，就厉害了。如果总是很实诚地“负重前行“，机器估计能胜任。问题更在于，“轻和重”，不是“物理”，是“心理”。

梁：是的，先是“物理的”，后来才引申为“心理的”。

詹：一旦从看得见的“物理的”，变成看不见的“心理的”，就不仅仅是“分布”的事情了。

梁：刚才想到“距离”这个词，明显一开始是一个物理概念，后来引申义有人与人之间的心理距离，比如还有网络空间距离，如果你我同在一个群里则距离为“1”。

荀：个人浅显理解：
1）理性和经验不是对立的。理性的表达，可以在各个语言的不同层级，可以是范畴化也可以实例化，也可以是两者结合，大数据支持下，可以给理性表达赋予概率和上下文。
2）理性和经验都是知识，理性表达一般认为是用人类已有知识和认识，但是机器使用隐式方式，采用了不为人所理解的方式，这样的方式也是知识。
3）经验主义不管用什么方法解决，结果总是要满足人对事实的解释。没有理性引导的经验主义是不存在的。
4）经验主义解决问题是有边界的，解决复杂问题理性方法不能缺位的。

詹：同意荀老师的观点。

Bu：宋老师，个人理解焦点问题是“知识是否必须是人能够理解的”。

理性主义是从“人理解的知识”出发建立模型。

这个苦恼对于其他领域（尤其是物理学）更甚：物理学家一直想理解世界；用DNN之后，效果好了，但是无法理解了。

宋：我们好奇宇宙是怎么来的，生命是怎么来的，语言是怎么发生的；我们好奇为什么盎格鲁撒克逊人和汉人隔着万里之遥，会同样发展出相近的句法体系，但词法体系非常不同，文字体系和语音体系完全不同……

Bu：宋老师的这个问题神经网络不好解答。

李：各位的讨论非常有意思。

宋老师说的理性主义，不是AI理性主义（符号主义），而是哲学理性主义，所问都是站得住的。乔姆斯基藐视机器学习和神经网络，甚至讥笑它们，说里面一点 science 都没有，也是从理性主义探索的哲学角度说话，但看不出能真正为符号主义辩护。连接人工智能实践与理性主义探索的纽带，迄今看来也只有符号主义了，虽然后者常常流于浅薄。

的确，我们很容易知道 nmt 不是在理解层次上翻译的。我们也可以针对这点，去巧妙地 “调戏” nmt 软件，让它出洋相，暴露出无知的本质。但这不影响它的翻译能力超过人的平均水平。符号规则 mt 无论怎么显得 “理解” 了语言，“能力” 上就是不如 nmt。正是从这个意义上，我们也许可以承认 nmt “终结”了翻译领域的理性主义。基本上就是宣告：哥们儿，这儿没你什么事儿了。不仅现在没有，未来也看不出你啥价值来，你已经完全出局，还是退休吧。

推而广之，假如同样的奇迹在 mt 以外的 nlp 任务中发生，我们是以其理解不足而否认它的碾压呢，还是承认它终结了理性主义的应用价值？

Bu：李老师的终极之问。

李：当然，上面的假如，还的确是一个巨大的问号。大概最多需要三到五年可以水落石出。

詹：一个NLP任务如果能重新定义为不需要理解，可以纳入end-to-end的框架，神经网络就能做好。

也许可以换个比喻？规则系统（我不倾向于使用理性主义来描述符号方法）像是自行车，神经机器翻译系统相当于汽车？不知这样类比是否恰当？汽车的速度当然碾压自行车，但是不是说自行车就要退休了，可能还可以再考虑？

梁：@詹卫东汽车自行车的比喻我喜欢。不是说有了汽车，自行车就退休了，进博物馆了。

李：作为快速达到目的地的旅行工具，自行车和骑马一样，其实是退休了。自行车后来成了休闲锻炼或临时代步的工具，那是“发挥余热”，类似于给主流擦屁股。

实际上，语音处理曾经是以符号规则为基础的。现在还有人哪怕提一下语音需要理解/理性/符号吗？phonology 是语言学的重要分支，它不是简单的物理存在。但speech 的能力上，理性主义早已被终结了，到了甚至提起它，都像是个笑话。当年伤害语言学家、流毒最广的名言：“我每开除一个语言学家，系统性能就上升”，说的就是语音。

詹：说真的，我一直很好奇Jelinek真的这样说过吗？这不是明显高估语言学家的能力吗？语言学家建设的能力，和破坏的能力，都比较弱。我是这么认为的。

李：他说的是事实，不过用了政治不正确的方式。这个事实就是：理性主义在语音AI领域被终结了， terminated，period.

梁：这里理性主义是指，与神经网络对立的那一派吗？ sorry I am a little lost.

李：对，是窄义，AI 理性主义就是符号主义，因为AI中还貌似找不到不是符号逻辑的理性主义（体现）呢。广义的哲学的理性主义，当然是永远的。

做了一辈子符号主义，说老实话，内心有点瞧不起它。不是它不好使、不管用、没有内部机制和学问，而是它就像玩家家似的，自己跟自己玩，哄自己高兴，忽悠大众，具有很大的“欺骗性”。它的所谓“可解释性”，都是“编”出来的。这种“理解”，你要它多深刻，它就多深刻，但与哲学上的人类理性，天壤之别。一个是里子（“玩家家”的游戏实质），一个是面子（可解释的人工智能），我们往往为了面子，拼命维护它背后的里子。也许金玉其外，败絮其中呢，LOL

当然，符号主义也不是那么不堪。他有一个万古长青的优越性，与生俱来的，不可动摇。就是它的可解释性/系统透明性所带来的定点纠错能力（debuggability）。这个优势怎么强调都不过分，这在工程上很重要。NLP 落地应用的有效途径，就是把它当成不断迭代打磨的语言软件工程。系统玩家家的好处是，人面对的不再是个黑箱 monster，而是个错误可追踪、可重复、可定点修复的代码。

宋：“博士以后辗转南下，机缘巧合……”（《写在NLP小书出版之时》）
其中“博士”是什么句法角色、语义角色？

白：@宋柔是一个里程碑。若干个里程碑构成一个隐性的序结构，达到了其中某一个，就处于序当中的一个位置。“……以后”是时间化了的方位词。也可以说，时间只是在推理中出现，此处就是一个方位结构。表明在隐性序结构中的抽象“位置”关系。

宋：@白硕你在说我前面提的一个问题：
“博士以后辗转南下，机缘巧合……”（李维《写在NLP小书出版之时》）
其中“博士”是什么句法角色、语义角色？
我觉得不一定存在一个序列。通常情况下，说“X以后”，X可以是表达一个事件的动词短语或事件性名词，如“发大水以后”“水灾以后”。这里是普通名词被看作事件名词，把“博士”看作意为“得到博士学位以后”的事件名词。类似的，“宴会以后”。只不过这个例子作为最常见的解释，“博士”指一个人，“以后”可以是时间词，相当于“后来”，但此处不是这个意思。

李：本来写的是“博士后”。觉得不妥，改成了 “博士以后”。前者被词典绑架了不想让读者费力消歧（休眠唤醒挺累的）只好再加一字。

宋：还是没逃出歧义。[Grin]

李：对。其实是 “博士阶段以后”，当时是个 abd （all but degree ）而不是 phd，匆匆逃出来打工/创业，再回头去答辩已经是好几年后了。前后跨度七八年，到了学校规定的死期，再不搞定，学位就泡汤了。那种煎熬日子不好过，老觉得有个死刑幽灵在前面徘徊。当时的处境很尴尬，一边厢科研创业做得红红火火，既拿到投资人钱，又拿到政府基金；另一边论文导师非常难伺候，常常是不放行，但也没反馈。走题了，打住。

白：<名词>以后，就暗含一个序了。

詹：@宋柔典型的事件名词如“车祸、大雨”直接加“以后”常见。不过“博士”不是事件名词，放在这个构式里，是被“压制（扭曲）”理解为一个事件。这应该是有一定条件的。“序列”是条件之一。小学、中学、大学（本科生）、研究生、博士，……是个序列。这个序列里的词，内部结构并不整齐。博士同时又可以指博士生。

白：比如坐地铁，“圆明园以后人就空了”意思是过了圆明园这站以后人就空了。

詹：语言的生成和理解（编码跟解码）都有隐形的认知框架在起作用。

白：各站的排列就是隐含的序结构

詹：隐含的东西有的会在分布中显现。数据够多，也许能捕捉到。但我觉得，永远也不可能靠数据去复原认知。工程上能靠大数据模拟复原一些，当然是很了不起的。绝对不应该讥笑，但也不值得大吹特吹。

荀：目标是:基于大数据分布做高频语言事实还原，并能参照人类知识做泛化，进行长尾计算。

詹：理性主义就是讲理。神经网络在宏观层面，当然是讲理的。它的所谓不可解释性，是微观的处理过程层面，非线性模型，其“理”超出了人类的认知能力。

白：少将以后就很难晋升了。背景序列是军衔。当然“少将”除了泛指，还可能特指。这是个歧义。记得贾彦德讲课把这类序结构归于所谓“语义场”。语义场一般都是人类自己弄出来的，可穷尽。

詹：语义场是李老师说的玩家家。可能从哲学层面看，要害正在玩家家。语言是可以“定义”的。定义就是玩家家。定义面向将来。数据只代表过去。我可以基于数据定义，我也可以凭空定义，只要“你懂的”。

荀：在工程上，定义语义场，也是标签化的过程，人可以定义精致的标签，也可以通过机器借助大数据。在分布意义下定义，不管哪种方式，能解决现场问题就是好的定义。

【相关】

【立委NLP频道（liweinlp.com）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-1242810.html

上一篇：《写在NLP小书出版之时》
下一篇：有感于“特斯拉又失控了“

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《AI 理性主义的终结是不可能的吗》

当前推荐数：1 推荐人：武夷山

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《AI 理性主义的终结是不可能的吗》

当前推荐数：1 推荐人： 武夷山

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：武夷山

该博文允许注册用户评论请点击登录评论 (0 个评论)