博文

《泥沙龙笔记：知识习得对本体知识，信息抽取对知识图谱》

已有 5251 次阅读 2015-12-22 16:08 |个人分类:立委科普|系统分类:科普集锦| NLP, 术语

我: 有意思的是 community 里面通常讲的 knowledge acquisition （知识习得）与知识图谱（knowledge graph）错位了。前者一般指用 clustering （聚类）去学 ontology（本体知识），而后者对应的不是 acquisition（习得）而是 extraction（抽取）。

白: 学知识长什么样，和学知识本身的区别。而且extraction特指从语料中获取知识，从其他源都不这么叫。

我: 从web page format 抽取的信息也算。以前 whisbang！那家公司就专做这个。主打人力资源的信息抽取，客户是美国劳工部，一时风头十足，筹得三千万风投。结果纳斯达克一垮，风投就中途撤资了。

白: 嗯，排版格式可以视为语料的一部分

我: 对 acquisition 机器学习很有效，规则系统就难把握，因为这本质是统计的结果。而 extraction 虽然机器学习是主流，但实际上根本不如规则系统那么顺风顺水。与此对应，给文本分类机器学习大拿，而规则就很难，也是因为这是统计平衡的结果，一句一句的用规则分析很难看到全貌。

拿着 hammer 找钉子的人当然不这么看。

一般而言，凡是在百这个量级以内的规则就可以搞定的任务，手工coding很有效，而在超出这个量级的因素中玩平衡，就是人力不可为，不如让机器学习的统计模型去玩靠谱. svo parsing 这样的深度分析任务如果设计成分层的系统的话，每个模块都刚好在这个量级以内，因此机器玩不过语言学家老手，当然笨蛋和平庸的语言学家不算。由SVO支持的知识图谱的抽取明显在这个量级以下，所以玩起来 hand coding 直接痛快。语音识别和图像识别中现在看不到任何 hand coding 就是因为需要玩平衡的诸因素，远超出了人脑可以容忍的程度。

【相关】

手工规则系统的软肋在文章分类

《立委随笔：语言自动分析的两个路子》

【why hybrid? on machine learning vs. hand-coded rules in NLP】

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-945115.html

上一篇：《新智元笔记：知识图谱和问答系统：how-question QA（2）》
下一篇：《泥沙龙笔记：再谈 cyc》