对于AI和NLP,统计是万金油,可以做一切任务。有些是统计擅长的甚至必需的,有些则不是。parsing 就属于后者,没有一个统计的必要性。宏观上看,语言的文法是蛮清晰的一套规则系统,人可以直接去 model,无需借助统计去学习。至于长尾的习惯用法或不规则现象,机制上没有问题,专家可以通过专家词典(expert lexicon)内的词驱动规则去应对,虽然人力并不能一蹴而就,但机器学习因此而遇到的稀疏数据(sparse data)则更具挑战性。
当然,如果有海量的带标数据(可惜没有,目前基本只在玩一个新闻文体的非常有限量的宾州树),统计学习出来的 parser 也有可能逼近专家编码的规则系统,但也只是逼近而已。想超过语言学专家码农的精雕细刻,看不出这种可能性。
机器能超过人的地方很多,譬如计算,譬如记忆,譬如在人力不及的巨大搜索空间里寻求最佳路径,譬如在多参数中玩大数据平衡,等等。然而,对于像 parsing 这样的专家可以见底的任务(tractable tasks),机器学习无法超越训练有素的专家码农,虽然它可以超越平庸之徒。
微博评论:
七年之痒 呵呵。 //@Hyperddr: 感觉七年内肯定要被打脸。。。。//@砰砰的小屋: 转发微博
【相关】
《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》
【新智元笔记:深度 parsing 的逻辑化 】
《新智元:有了deep parsing,信息抽取就是个玩儿》
《泥沙龙笔记:漫谈自动句法分析和树形图表达》
【立委科普:语法结构树之美】
【立委科普:语法结构树之美(之二)】
【征文参赛:美梦成真】
泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索
泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-948383.html
上一篇:
【立委科普:本体知识系统的一些历史掌故和背景】下一篇:
【新智元笔记:深度结构分析的逻辑化 】