《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

已有 3338 次阅读 2015-12-22 16:08 |个人分类:立委科普|系统分类:科普集锦|关键词:NLP,术语| NLP, 术语

我: 有意思的是 community 里面通常讲的 knowledge acquisition (知识习得)与 知识图谱(knowledge graph)错位了。前者一般指用 clustering (聚类)去学 ontology(本体知识),而后者对应的不是 acquisition(习得)而是 extraction(抽取)。
白: 学知识长什么样,和学知识本身的区别。而且extraction特指从语料中获取知识,从其他源都不这么叫。
我: 从web page format 抽取的信息也算。以前 whisbang!那家公司就专做这个。主打人力资源的信息抽取,客户是美国劳工部,一时风头十足,筹得三千万风投。结果纳斯达克一垮,风投就中途撤资了。
白: 嗯,排版格式可以视为语料的一部分
我: 对 acquisition 机器学习很有效,规则系统就难把握,因为这本质是统计的结果。而 extraction 虽然机器学习是主流,但实际上根本不如规则系统那么顺风顺水。与此对应,给文本分类机器学习大拿,而规则就很难,也是因为这是统计平衡的结果,一句一句的用规则分析很难看到全貌。
拿着 hammer 找钉子的人当然不这么看。

一般而言,凡是在百这个量级以内的规则就可以搞定的任务,手工coding很有效, 而在超出这个量级的因素中玩平衡,就是人力不可为,不如让机器学习的统计模型去玩靠谱. svo parsing 这样的深度分析任务如果设计成分层的系统的话,每个模块都刚好在这个量级以内,因此机器玩不过语言学家老手,当然笨蛋和平庸的语言学家不算。由SVO支持的知识图谱的抽取明显在这个量级以下,所以玩起来 hand coding 直接痛快。语音识别和图像识别中 现在看不到任何 hand coding 就是因为需要玩平衡的诸因素,远超出了人脑可以容忍的程度。


【相关】

手工规则系统的软肋在文章分类

《立委随笔:语言自动分析的两个路子》

why hybrid? on machine learning vs. hand-coded rules in NLP

【置顶:立委科学网博客NLP博文一览(定期更新版)】 





http://blog.sciencenet.cn/blog-362400-945115.html

上一篇:《新智元笔记:知识图谱和问答系统:how-question QA(2)》
下一篇:《泥沙龙笔记:再谈 cyc》

1 icgwang

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-15 14:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部