|||
“从目前看,三个领域,马尔可夫模型成功了,而传统的基于规则的方法在解决自然语言识别这方面还没有多大的建树。统计方法和基于概率关联的方法,这种新数学,在解决大数据、混沌数据方面是凑效的。规则方法的主要问题是在处理对象包含很多噪声且不稳定性时会失效。”
博主回复(2013-10-3 23:31):您能举个例子么?
“规则方法的主要问题是在处理对象包含很多噪声且不稳定性时会失效。”
我感觉到的问题是,如果有多个 features 需要统一调控,才能把握,那就超越了手工规则方法的能力了,因为手工调控(fine-tuning)features 一多,组合可能性太大,人脑就不好使了,更不用说在统计上玩平衡,那是机器擅长的事情。
也许我们说的是一回事。
不过,这个拿一方(电脑)的长处来与另一方(人脑)的短处来比的角度是不合理的,应该从问题领域来对比。具体什么问题非要在千丝万缕的证据中玩平衡才能解决好?我能想到的最突出的问题是 document-level classification,这种任务,规则系统基本是无能的,而 keyword model 就很有效,因为那真地要在千万个features里面玩平衡才好看到一个文本的总体类别。另外一个 clustering 的任务,也是规则很难做的,不过 clustering 这种无监督学习的东东质量难以保证,不像 classifcation 有那么大的实际用场。(其他机器学习擅长的任务包括关键词搜索,还有语音识别,这些领域规则基本插不上手。机器翻译由于其大量免费双语数据作为训练集的存在,规则系统或者规则为主的系统也逐渐退出历史舞台。)
但是很多 NLP (parsing)和 IE (各类抽取)的任务,是超越 document classification 这种粗线条的问题,因此很难铁口判断规则系统就不如机器学习。就说马尔可夫模型比较擅长的浅层NLP问题,比如 POS,可以承认的是,在时间不够而且有相当数据(PennTree)的条件下,手工编制确实比不过成熟的机器学习来得痛快,立马可用。但是,真正用过 POS 来支持 parsing 的就会发现,后面的那个有限数据学不出来 long long tail 一直会是困扰,为它打补丁擦屁股的工作量(所谓 re-training 根本不能保证效果,而且还有 regression issue),还不如当初从从容容地写一套规则系统。因为如果一开始就写规则,慢是慢点,但结构起来和调控起来要容易很多。其质量有十足把握超过机器学习。
人脑(规则)可能顾不上这么多细微的证据及其权重,但是人脑往往可以根据不同状况抓住几条主线,然后在其中调控,达到解决问题。在 deep parsing 这个 NLP 的关键/核心领域,规则系统的优势更加明显。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 21:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社