《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【围脖:做 parsing 还是要靠语言学家,机器学习不给力】

已有 2474 次阅读 2016-1-6 07:01 |个人分类:立委科普|系统分类:科普集锦|关键词:parser,规则系统,机器学习| 机器学习, parser, 规则系统

对于AI和NLP,统计是万金油,可以做一切任务。有些是统计擅长的甚至必需的,有些则不是。parsing 就属于后者,没有一个统计的必要性。宏观上看,语言的文法是蛮清晰的一套规则系统,人可以直接去 model,无需借助统计去学习。至于长尾的习惯用法或不规则现象,机制上没有问题,专家可以通过专家词典(expert lexicon)内的词驱动规则去应对,虽然人力并不能一蹴而就,但机器学习因此而遇到的稀疏数据(sparse data)则更具挑战性。
当然,如果有海量的带标数据(可惜没有,目前基本只在玩一个新闻文体的非常有限量的宾州树),统计学习出来的 parser 也有可能逼近专家编码的规则系统,但也只是逼近而已。想超过语言学专家码农的精雕细刻,看不出这种可能性。

机器能超过人的地方很多,譬如计算,譬如记忆,譬如在人力不及的巨大搜索空间里寻求最佳路径,譬如在多参数中玩大数据平衡,等等。然而,对于像 parsing 这样的专家可以见底的任务(tractable tasks),机器学习无法超越训练有素的专家码农,虽然它可以超越平庸之徒。


微博评论:

七年之痒 呵呵。 //@Hyperddr: 感觉七年内肯定要被打脸。。。。//@砰砰的小屋: 转发微博


【相关】

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》 

【新智元笔记:深度 parsing 的逻辑化 】 

《新智元:有了deep parsing,信息抽取就是个玩儿》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

【立委科普:语法结构树之美】


【立委科普:语法结构树之美(之二)】


【征文参赛:美梦成真】

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 


泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器


【置顶:立委科学网博客NLP博文一览(定期更新版)】 





http://blog.sciencenet.cn/blog-362400-948383.html

上一篇:【立委科普:本体知识系统的一些历史掌故和背景】
下一篇:【新智元笔记:深度结构分析的逻辑化 】

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-14 23:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部