博文

【围脖：做 parsing 还是要靠语言学家，机器学习不给力】

已有 4336 次阅读 2016-1-6 07:01 |个人分类:立委科普|系统分类:科普集锦| 机器学习, parser, 规则系统

对于AI和NLP，统计是万金油，可以做一切任务。有些是统计擅长的甚至必需的，有些则不是。parsing 就属于后者，没有一个统计的必要性。宏观上看，语言的文法是蛮清晰的一套规则系统，人可以直接去 model，无需借助统计去学习。至于长尾的习惯用法或不规则现象，机制上没有问题，专家可以通过专家词典（expert lexicon）内的词驱动规则去应对，虽然人力并不能一蹴而就，但机器学习因此而遇到的稀疏数据（sparse data）则更具挑战性。

当然，如果有海量的带标数据（可惜没有，目前基本只在玩一个新闻文体的非常有限量的宾州树），统计学习出来的 parser 也有可能逼近专家编码的规则系统，但也只是逼近而已。想超过语言学专家码农的精雕细刻，看不出这种可能性。

机器能超过人的地方很多，譬如计算，譬如记忆，譬如在人力不及的巨大搜索空间里寻求最佳路径，譬如在多参数中玩大数据平衡，等等。然而，对于像 parsing 这样的专家可以见底的任务（tractable tasks），机器学习无法超越训练有素的专家码农，虽然它可以超越平庸之徒。

微博评论：

七年之痒呵呵。 //@Hyperddr: 感觉七年内肯定要被打脸。。。。//@砰砰的小屋: 转发微博

【相关】

《新智元笔记：对于 tractable tasks, 机器学习很难胜过专家》

【新智元笔记：深度 parsing 的逻辑化】

《新智元：有了deep parsing，信息抽取就是个玩儿》

《泥沙龙笔记：漫谈自动句法分析和树形图表达》

【立委科普：语法结构树之美】

【立委科普：语法结构树之美（之二）】

【征文参赛：美梦成真】