|||
这注定是一本小众冷书。但愿所传承创新的符号自然语言学术,丝相连、藕不断。有如人工智能理性主义的潮起潮落,庶几留下一声历史的回响。谁知道呢,五十年河西,“神经”恐非历史的终结。钟摆回摆的时节,历史或被重新发现。摘自《写在NLP小书出版之时》
宋:@wei 祝贺立委心血之作付梓!做科学,真知灼见;讲科学,深入浅出!
王:祝贺李老师出书,一定拜读!我觉得符号主义的香火是不会断的,因为无论符号主义还是统计主义,本质都是数学建模,都来源于对实际语料的考察(人工的或自动/半自动的),而且都有加入人类主观知识的操作空间(包括调整模型,引入新的变量或调整参数)。更深层次的争论点,也许出在“计算语言学/自然语言处理需不需要(或者有没有可能脱离)人类总结的关于语言的知识”这个问题上?
李:@王,谨慎(不)乐观。我是这样看的。
先回顾一下亲身体验。当统计MT取代规则MT的时候,虽然知道是大势所趋,心里是不服的。统计MT虽然鲁棒,普适性强,但质量难以恭维,心里总在嘀咕,给我资源我会杀回来的。但是到了神经MT的时代,那是彻底服了。给我再多的资源,我也无法逼近神经MT;这不是说规则系统不能对神经MT有补充、改良的作用,但最多也就是帮助神经擦屁股,担当不了主力。擦屁股的地方当然有,譬如帮助克服神经张冠李戴 指鹿为马的毛病,或者是在神经使不上力气的地方,譬如领域场景没有足够翻译数据可供训练的时候。
如果以MT作为前车之鉴,面对神经,以前对于规则的自信的确受到了挑战和挫折。但是好在 MT 是个特殊的 case,不但有几乎无穷的免费的人工翻译的平行数据做训练,还有更加无穷无尽的自然语言原始语料可做语言模型(我们每说一句话,就是做了一次标注,标注什么是合法的语言现象)帮助语句通顺。而规则系统的语言生成根本上是在那里拿每个词的译法凑,无论如何达不到语言模型的通顺度。
其他的 NLP 任务和场景呢?这就回到了对 AI 理性主义命运的看法。
不好说。现在有预训练,也是有无穷无尽的数据。理论上讲,等到预训练足够丰富发达,后面的语义落地就可以变得很薄。预训练好比是代替或隐含了句法结构解析。而且,词典习得(lexicon acquisition)乃至本体知识库的习得(ontology acquisition)与构建,很大程度上也是可以直接从原始数据开始的,最多是插入一些有限的快速人工校验。这样看来,预训练+词典习得+神经,保不定哪一天“终结”了NLP理性主义,也不是不可想象的。
果如此,是值得庆贺的。钟摆业已升天,使命已然完成,有什么必要盼它回摆呢?
谨慎乐观也是谨慎不乐观。因为迄今为止,垂直领域呼唤语言技术,嗷嗷待哺;这边厢闹得动静那么大的神经就是使不上力气,这种事儿我们在第一线看得多了。垂直领域NLP的主流,没标注数据就傻眼。
宋:理性主义永远不会灭绝。理性主义代表人类对于未知的好奇和探求,包括对于语言规律的好奇和探求,这是人类社会发展的基本动力之一。
詹:其实,“理性主义”跟“经验主义”这样的对立方式,至少在顾名思义的层面上,容易误解:好像凭经验办事,不够理性似的。要搞清楚这两个名词的来历,可能需要到哲学故纸堆里找半天。
从某种意义上,预训练模型应该也是比较理性的吧。语言学追求的是范畴化的知识表示,是可理解的清晰的语言模型(因果关系)。机器学习追求的是数据(输入:输出)之间的函数拟合关系(相关关系)。二者也不是矛盾对立的。
大数据+深度学习可以带来机器翻译的效果有明显提升,但同样明显的是,它还是没有理解句子的意思。要戏弄机器翻译系统,仍然是轻而易举的事情。这个不像围棋,深度学习的围棋智能,人类已经干不过机器了。语言不是竞争的游戏,而是合作的游戏。
在理论层面,我丝毫看不到预训练模型有什么能像人类那样理解语言的机制。人类理解语言有两个层次:(1)显式符号层次;(2)隐式认知层次。语言学,尤其是基于结构主义分布思想的语言学,基本上就是对显式符号层次的观察,并将语言知识范畴化、系统化。语言学家做的工作,跟预训练模型做的工作,没有本质的区别,只是分布颗粒度的区别。在细颗粒度尺度下,神经网络对符号分布的刻画(抛弃范畴化的分布)比语言学家的描述更准确。但是,”分布“ 跟 “语义”的差距还是很大的。“分布”只是冰山一角,看得见的“言语”。“隐藏的认知”可能才是“语言”的真相(全貌?)。
任正非:发展芯片,光砸钱不行,还要砸人
2019年05月21日 09:52 新浪科技综合
https://tech.sina.com.cn/it/2019-05-21/doc-ihvhiews3388256.shtml
要从大数据里学到“砸钱”、“砸人”、“砸锅”、“砸饭碗”的“意思”,我还看不到头绪。一个亿广告砸出一百个亿的销售额。人如何理解“砸”的意思的?是靠分布吗?
梁:先有了“砸了一大笔钱”之说,然后才类比地理解了什么叫“砸人”,[Chuckle]
詹:是,理解一定需要“类比”能力。不理解也可以翻译。现在的NMT机器翻译经常能翻得非常好。
梁:“砸”,我的想象是,一个人举起一个很重的东西,拼命向下摔。[Grin] 砸锅砸碗是本意,
詹:“砸锅”已经从本意引申出去了。“砸碗”也可以不真的砸“碗”了[Grin]
梁:如果一件事情被我搞砸了,那这件事对我来说应该是比较重要的事。
詹:真真假假,虚虚实实,语言不是“坚硬之物”,信息符号常常可以不费力气的“揉巴”变形。是的。“砸”里边有“力度大”这个“语义”。我怒砸一块钱赌特朗普连任。
梁:人的认知结构里,有重要不重要之说,很多词(概念)围绕着“重要”这个概念 build 起来。
詹:是的。一是“重要”,二是“举重若轻”。这两样加在一起,就厉害了。如果总是很实诚地“负重前行“,机器估计能胜任。问题更在于,“轻和重”,不是“物理”,是“心理”。
梁:是的,先是“物理的”,后来才引申为“心理的”。
詹:一旦从看得见的“物理的”,变成看不见的“心理的”,就不仅仅是“分布”的事情了。
梁:刚才想到“距离”这个词,明显一开始是一个物理概念,后来引申义有人与人之间的心理距离,比如还有网络空间距离,如果你我同在一个群里则距离为“1”。
荀:个人浅显理解:
1)理性和经验不是对立的。理性的表达,可以在各个语言的不同层级,可以是范畴化也可以实例化,也可以是两者结合,大数据支持下,可以给理性表达赋予概率和上下文。
2)理性和经验都是知识,理性表达一般认为是用人类已有知识和认识,但是机器使用隐式方式,采用了不为人所理解的方式,这样的方式也是知识。
3)经验主义不管用什么方法解决,结果总是要满足人对事实的解释。没有理性引导的经验主义是不存在的。
4)经验主义解决问题是有边界的,解决复杂问题理性方法不能缺位的。
詹:同意荀老师的观点。
Bu:宋老师,个人理解焦点问题是“知识是否必须是人能够理解的”。
理性主义是从“人理解的知识”出发建立模型。
这个苦恼对于其他领域(尤其是物理学)更甚:物理学家一直想理解世界;用DNN之后,效果好了,但是无法理解了。
宋:我们好奇宇宙是怎么来的,生命是怎么来的,语言是怎么发生的;我们好奇为什么盎格鲁撒克逊人和汉人隔着万里之遥,会同样发展出相近的句法体系,但词法体系非常不同,文字体系和语音体系完全不同……
Bu:宋老师的这个问题神经网络不好解答。
李:各位的讨论非常有意思。
宋老师说的理性主义,不是AI理性主义(符号主义),而是哲学理性主义,所问都是站得住的。乔姆斯基藐视机器学习和神经网络,甚至讥笑它们,说里面一点 science 都没有,也是从理性主义探索的哲学角度说话,但看不出能真正为符号主义辩护。连接人工智能实践与 理性主义探索的纽带,迄今看来也只有符号主义了,虽然后者常常流于浅薄。
的确,我们很容易知道 nmt 不是在理解层次上翻译的。我们也可以针对这点,去巧妙地 “调戏” nmt 软件,让它出洋相,暴露出无知的本质。但这不影响它的翻译能力超过人的平均水平。符号规则 mt 无论怎么显得 “理解” 了语言,“能力” 上就是不如 nmt。正是从这个意义上,我们也许可以承认 nmt “终结”了翻译领域的理性主义。基本上就是宣告:哥们儿,这儿没你什么事儿了。不仅现在没有,未来也看不出你啥价值来,你已经完全出局,还是退休吧。
推而广之,假如同样的奇迹在 mt 以外的 nlp 任务中发生,我们是以其理解不足而否认它的碾压呢,还是承认 它 终结了 理性主义的应用价值?
Bu:李老师的终极之问。
李:当然,上面的假如,还的确是一个巨大的问号。大概最多需要三到五年可以水落石出。
詹:一个NLP任务如果能重新定义为不需要理解,可以纳入end-to-end的框架,神经网络就能做好。
也许可以换个比喻?规则系统(我不倾向于使用理性主义来描述符号方法)像是自行车,神经机器翻译系统相当于汽车?不知这样类比是否恰当?汽车的速度当然碾压自行车,但是不是说自行车就要退休了,可能还可以再考虑?
梁:@詹卫东 汽车自行车的比喻我喜欢。不是说有了汽车,自行车就退休了,进博物馆了。
李:作为快速达到目的地的旅行工具,自行车和骑马一样,其实是退休了。自行车后来成了休闲锻炼或临时代步的工具,那是“发挥余热”,类似于给主流擦屁股。
实际上,语音处理曾经是以符号规则为基础的。现在还有人哪怕提一下语音需要理解/理性/符号吗?phonology 是语言学的重要分支,它不是简单的物理存在。但speech 的能力上,理性主义早已被终结了,到了甚至提起它,都像是个笑话。当年伤害语言学家、流毒最广的名言:“我每开除一个语言学家,系统性能就上升”,说的就是语音。
詹:说真的,我一直很好奇Jelinek真的这样说过吗?这不是明显高估语言学家的能力吗?语言学家建设的能力,和破坏的能力,都比较弱。我是这么认为的。
李:他说的是事实,不过用了政治不正确的方式。这个事实就是:理性主义在语音AI领域被终结了, terminated,period.
梁:这里理性主义是指,与神经网络对立的那一派吗? sorry I am a little lost.
李:对,是窄义,AI 理性主义就是符号主义,因为AI中还貌似找不到不是符号逻辑的理性主义(体现)呢。广义的哲学的理性主义,当然是永远的。
做了一辈子符号主义,说老实话,内心有点瞧不起它。不是它不好使、不管用、没有内部机制和学问,而是它就像玩家家似的,自己跟自己玩,哄自己高兴,忽悠大众,具有很大的“欺骗性”。它的所谓“可解释性”,都是“编”出来的。这种“理解”,你要它多深刻, 它就多深刻,但与哲学上的人类理性,天壤之别。一个是里子(“玩家家”的游戏实质),一个是面子(可解释的人工智能),我们往往为了面子,拼命维护它背后的里子。也许金玉其外,败絮其中呢,LOL
当然,符号主义也不是那么不堪。他有一个万古长青的优越性,与生俱来的,不可动摇。就是它的可解释性/系统透明性所带来的定点纠错能力(debuggability)。这个优势怎么强调都不过分,这在工程上很重要。NLP 落地应用的有效途径,就是把它当成不断迭代打磨的语言软件工程。系统玩家家的好处是,人面对的不再是个黑箱 monster,而是个错误可追踪、可重复、可定点修复的代码。
宋:“博士以后辗转南下,机缘巧合……”(《写在NLP小书出版之时》)
其中“博士”是什么句法角色、语义角色?
白:@宋柔 是一个里程碑。若干个里程碑构成一个隐性的序结构,达到了其中某一个,就处于序当中的一个位置。“……以后”是时间化了的方位词。也可以说,时间只是在推理中出现,此处就是一个方位结构。表明在隐性序结构中的抽象“位置”关系。
宋:@白硕 你在说我前面提的一个问题:
“博士以后辗转南下,机缘巧合……”(李维《写在NLP小书出版之时》)
其中“博士”是什么句法角色、语义角色?
我觉得不一定存在一个序列。通常情况下,说“X以后”,X可以是表达一个事件的动词短语或事件性名词,如“发大水以后”“水灾以后”。这里是普通名词被看作事件名词,把“博士”看作意为“得到博士学位以后”的事件名词。类似的,“宴会以后”。只不过这个例子作为最常见的解释,“博士”指一个人,“以后”可以是时间词,相当于“后来”,但此处不是这个意思。
李:本来写的是“博士后”。觉得不妥,改成了 “博士以后”。前者被词典绑架了 不想让读者费力消歧(休眠唤醒 挺累的)只好再加一字。
宋:还是没逃出歧义。[Grin]
李:对。其实是 “博士阶段以后”,当时是个 abd (all but degree ) 而不是 phd,匆匆逃出来打工/创业,再回头去答辩已经是好几年后了。前后跨度七八年,到了学校规定的死期,再不搞定,学位就泡汤了。那种煎熬日子不好过,老觉得有个死刑幽灵在前面徘徊。当时的处境很尴尬,一边厢科研创业做得红红火火,既拿到投资人钱,又拿到政府基金;另一边论文导师非常难伺候,常常是不放行,但也没反馈。走题了,打住。
白:<名词>以后,就暗含一个序了。
詹:@宋柔 典型的事件名词如“车祸、大雨”直接加“以后”常见。不过“博士”不是事件名词,放在这个构式里,是被“压制(扭曲)”理解为一个事件。这应该是有一定条件的。“序列”是条件之一。小学、中学、大学(本科生)、研究生、博士,……是个序列。这个序列里的词,内部结构并不整齐。博士同时又可以指博士生。
白:比如坐地铁,“圆明园以后人就空了”意思是过了圆明园这站以后人就空了。
詹:语言的生成和理解(编码跟解码)都有隐形的认知框架在起作用。
白:各站的排列就是隐含的序结构
詹:隐含的东西有的会在分布中显现。数据够多,也许能捕捉到。但我觉得,永远也不可能靠数据去复原认知。工程上能靠大数据模拟复原一些,当然是很了不起的。绝对不应该讥笑,但也不值得大吹特吹。
荀:目标是:基于大数据分布做高频语言事实还原,并能参照人类知识做泛化,进行长尾计算。
詹:理性主义就是讲理。神经网络在宏观层面,当然是讲理的。它的所谓不可解释性,是微观的处理过程层面,非线性模型,其“理”超出了人类的认知能力。
白:少将以后就很难晋升了。背景序列是军衔。当然“少将”除了泛指,还可能特指。这是个歧义。记得贾彦德讲课把这类序结构归于所谓“语义场”。语义场一般都是人类自己弄出来的,可穷尽。
詹:语义场是李老师说的玩家家。可能从哲学层面看,要害正在玩家家。语言是可以“定义”的。定义就是玩家家。定义面向将来。数据只代表过去。我可以基于数据定义,我也可以凭空定义,只要“你懂的”。
荀:在工程上,定义语义场,也是标签化的过程,人可以定义精致的标签,也可以通过机器借助大数据。在分布意义下定义,不管哪种方式,能解决现场问题就是好的定义。
【相关】
【立委NLP频道(liweinlp.com)】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 18:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社