|||
先说几句所谓乔姆斯基大战谷歌Norvig,根本没有大战。没有任何正面交锋,任何互动,其实挺没劲的。
都是Norvig 就乔老爷答记者问似的comments,急于回应,急于自我表现,长篇大论全部是在他假设的乔老爷的观点上进行。他把乔老爷当作假想的对象。换句话说,乔老爷的名气成了他 marketing 的工具。可老乔根本不大看得见他,或不屑做回应。
先看乔老爷的陈词但并非滥调。至于Norvig 的滔滔不绝只挑几点慢慢评。
乔老爷基本说的是宇宙真理,这些他以前也说过多次。无论经验主义如何猖獗,他都不屑,哲学家永远立于不败之地。
乔老爷的第一点quote:
确实有许多研究工作在尝试用统计模型来解决各种各样的语言学问题。其中有一些取得了成功。但是大多数是失败的。
要挑刺,最多是挑“大多数”是否确当。对于被清晰定义的自然语言任务,似乎统计模型取得了多数成功,而不是多数失败。但另一方面,自然语言这座大山,其实统计只划过冰山一角。这一角大多是浅层的任务,或者是应用层的领域任务。均属低枝果实。所以我倾向于同意乔老爷的总体判断。
其实所谓的这些成功,里面有很多说法。除了少数类别是清晰无误的统计成功外,其余各项其实不能宣称统计经验胜过了理性描述。这里面要谈就太细了,以后可以结合Norvig 的絮叨具体谈一些。
可以先大体提几个类别的自然语言任务,看统计成功与否。
第一类,统计完胜,理性模型完败
任务包括,文章分类(document classification),语音识别(speech recognition)。这些任务玩的是浅层参数的平衡,参数量巨大。人脑不大可能使用理性的逻辑机制求解它,因此理性模型派有点束手无策。正好概率统计派上用场了。
第二类,统计派自以为成功了,或者自信打败了理性派,其实不然
包括,信息抽取(information extraction),机器翻译(machinetranslation)。
先说信息抽取,里面大的任务有:专名,关系,事件。情感或舆情的抽取也算。所有这些任务,跟所有其他自然语言相关任务一样,都是统计一边倒,至少在学界是如此(20年前抽取被定义为任务的初期是两派都有,如今是清一色了)。这种一边倒到了这种程度,领域新人或统计死硬派,根本就不承认还有统计以外的方法存在,或者完全地蔑视。而对于绝大多数NLP相关者,包括基金经理, 统计方法至少是首选的,或者,默认的最佳方法。另一路的方法虽然在具体的系统和具体的应用中发挥作用,但是宏观上几乎看不见。但并不因为一方的嗓门大就可认定一方成功或胜出。
长话短说,信息抽取和情感分析要想做好,光靠统计模型是不行的。粗线条可以,稍微细一点,统计就容易傻眼。
下一个是机器翻译,我几乎要把它归到统计完胜里面去。因为传统系统如Systran 工业成功几十年,积累了几十年,如今也败在统计MT下。这里面有一个资源不对等的情形,使得统计占了上风,不可一世。它是一个非常特别的应用领域,有几户无限的双语 labeled data,因为人类从来没有停止过翻译活动。这些几乎是无限的高质量而且免费的 data, 使得统计MT只要依赖ngram的alignment 就可以获取非常多的细琐的翻译知识。拼在一起,磨磨光,就是不错的翻译。至少对于同一语系的语言之间,这些从浅层到浅层的黑箱式对应,效果相当不错。而且越是常用的习惯用法,翻译得越地道。因为这些死记的东西,电脑通过统计比人脑强过很多。这套路子可以推广到各个语言对,使得我们梦寐以求的多语互译这个以前以为只能在天堂实现的美好理想已经基本成为现实。Google 翻译,百度翻译,这些都是了不起的成功。我们所有人都是受益者。我女儿这一代,随时调用谷歌翻译就跟用维基百科一样,都认为是理所当然的免费资源,就如空气和水一样。他们见到翻译错误偶然也会当玩笑一样在朋友间转发,但这并不影响他们随时随地使用机器翻译。
但是(毛委员还是谁好像说过,世界上怕就怕但是二字)。
不能因此宣布统计在机器翻译上完胜。因为浅层对应本质上是自然语言的低枝果实,无论看上去多么成功,不能改变这类系统对语言结构的无知。事实上统计MT目前所遇到的瓶颈,几乎都是统计框架内解决不了的问题。低枝果实几乎吃完了,必须请回理性主义这尊大佛,才好更上一层楼。
第三类,统计自以为自己万能可行,但它无法与理性主义的方法抗衡
深度句法分析(deep parsing)就是。这是自然语言理解和处理的灵魂、核心。恰恰在这个关键任务上,统计其实不是对手,虽然 Norvig们的看法正好相反。很多人被他们天花乱坠的说法洗脑。统计派连数据都没有,玩来玩去就一个 PennTree,反映了语言的一个角,怎么玩呢?根本不是我们语言学家的对手。
雷:@wei 慢一点,有问题要: MT可以统计与传统parsing并行吗
MT必须要走hybrid 的道路, 否则穿透不了玻璃天花板。
雷:传统parsing给出一个大的框架, 统计处理局部?
这是一种合作模式,有其道理:parsing 擅长结构(包括远距离结构)的分析和转换,而统计擅长记忆细琐的ngram的对应和翻译。 还有一种就是 backoff,规则逮住的归规则,逮不住的归统计,让统计楼底。
雷:现在的比较长的句子的MT翻译是让人笑话的。
long distance 是 ngram和几乎所有统计系统的克星,他们通常只能看得见两个词(bigram)三个词(trigram)及其条件概率。
吐槽太多,发大水, 先歇一会儿。
Nick:统计和parsing咋样hybrid?
毛:好看,可谓有声有色。[强] @wei 你这些观点不知是否曾经写成比较有系统的文章?
Philip:Long distance Parsing是否比较难实现?
雷:乔老爷忙于与他的弟子交战。long distance 的中文parsing很难,因为中文少形态,英文要好很多。
毛:比方说“道可道非常道”,能翻译?
毛老,道可道非常道,是世界上最容易的翻译了。电脑可以做到人翻译的同等水平。如果你认为这不是人可以翻译的,那就没有理由指望机器去翻译。
毛:哦?你是说反正人也无法翻译,有道理。
至于胡喷的这些个,虽然是一辈子思索而发,绝无戏言虚言,但我对写出去,求得 community 发表,没有啥兴趣。 这个领域的一面倒是如此严重,批评统计的声音,只有统计那边的超主流,才有可能发出。我不必去对手做裁判的地儿淌混水,热脸贴冷屁股。听得懂听,听不懂的最好永远不懂。没有教育的责任,反正也不靠它吃饭。
雷:不要这么绝望,认知心理那边也是不买统计的账的。工程上的工作不是他们的兴趣。
Nick:@wei 侬到底哪伙的,批老乔set back二十年,又批统计。
雷:@wei 是在批self-embedding的扩大化,同时统计学派的大跃进的思维。
批老乔耽误一代人,指的是我们前辈的那代人。正因为老乔让他们走入歧途,导致了下一代(我们这一代,虽然我其实大概算上一代的遗少,这一代的异数)的反叛,精算师们不懂语言学也登堂入室,唱起了计算语言学NLP 的主角。甚至一些牛气得很的自然语言学者,连语言学的基本概念都不懂,行内人也没人笑话他们,大家都是统计数据派,一伙的,语言就是个黑箱子。
我不幸处于后面这一代,同时也幸亏处于这一代,因此有些独立特行的优势。否则,这个世界最多再多出一个平庸的精算师来。虽然精算师谋职求生容易,但绝大多数精算师们都是没有主见的匠人而已,盲目跟风,追随着潮流一窝蜂地赶,哪个算法时髦就玩哪个。玩到后来,也看不清对象是什么,语言对他们就是隔雾看花。
毛:@wei 但是即使不指望在专业期刊发表,写出来放在网上,一方面是一吐心中块垒,二来自己也梳理一下,还可以文会友,又可使我等门外汉受益,岂不也是很好?
毛老,我一直是一个勤勉的blogger,我写过近 200 篇NLP博客。几乎成为《科学网》民科大家了(虽然我在民科心中算是正宗科班)。攒着劲儿,退休时争取被授予NLP民科宗师的称号。
我的博客各种专栏五花八门,但有两个专栏与nlp有关:一个叫《立委科普》,一个叫《社媒挖掘》,一个偏理论一个偏实践。两个加在一起有200多篇博客了,欢迎各位有闲光临指教。
雷:专业期刊太程式化,被某种力量把持,容不得行云流水和天马行空.
毛: 哦,你的博客在什么网址?还有刚才尼克的问题也是我想问的,你究竟是偏统计的还是偏分析的?
雷: @wei 我们准备着呢,还要一个桂冠?
Philip:我觉得不用追问 @wei 是哪派的。他表述已经告诉我们了。
Nick:@wei 你这样不行啊,骂完老乔骂统计,谁都不待见你。
Philip: 是新派里的异类。批判的看待NLP的统计方法,有独特的见解。看法很高,对我这个外行。工程实现能否可行是外行更感兴趣滴
Nick:觉得在本群里可搞一次节目,@wei ,白老师,洪爷和雷老师可先掐一架。掐完组织一代表团去砸老乔的场子。
Philip:你们去砸。我在群里为你们摇旗和听响[呲牙]
我是毛派, 毛老跟我最对脾气,也可算是刘派(我的两位启蒙导师都姓刘呢)。在我这里,毛刘一家,不像文革,两位主席势不两立。
我左手借统计经验派具体成果去批判数学理性派乔老爷。右手用理性主义原则批判统计经验派:太浅,而且无知地傲慢。
毛:尼克你以后要坐得稍为远些,不然动不动就喷一身口水。
认真地说,我基本属于工程哲学派。纯工程不过是匠人,与戏子同类,可以以此自嘲,但不能真混迹其中而不自知。
但是工程哲学不同,它有文科的哲学和视野,也有工程的田野工作做底,不至于成为空谈家。
雷: @wei 我觉得你是认知现实派
【相关】
乔姆斯基批判 2015-06-15
Chomsky’s Negative Impact 2015-06-19
Yankee_Tootle的博客:乔姆斯基大战谷歌Norvig
中文原文:http://blog.sina.com.cn/s/blog_591858120101bhpi.html
英文原文:http://norvig.com/chomsky.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 20:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社