《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【科普小品:伟哥的关键词故事】

已有 2064 次阅读 2016-1-27 02:25 |个人分类:立委科普|系统分类:科普集锦|关键词:关键词,SVO,句法结构,WSD,消歧| 关键词, WSD, 消歧, SVO, 句法结构

讲个伟哥的故事。

当年在水牛城的时候,我们开始开发信息抽取挖掘(如今叫知识图谱)的产品,名叫 Brand Dashboard,就是从在线新闻和论坛等专门收集品牌的全方位信息。这个产品生不逢时,超出时代了,因为那时社交媒体还没诞生,网络舆情和品牌情报还处于 BBS 和论坛新闻的时代。即便如此,大企业客户的market 还是有的,我们的顾客之一就是这个伟哥的厂商,大名鼎鼎的 Pfizer。

当时为了这个产品,我领导开发了一个品牌和术语的消歧模块,其中用到的排歧条件包括利用句法关系如SVO的限制,backoff 到 keywords。关键词条件就是所谓共现关系,可以根据距离进一步区分为在同一个句子,同一个段落,或者同一篇文章。所以这个排歧的 backoff model 实际上就是:

SVO --> keywords within S --> keywords within P --> keywords within D

SVO 不用说,条件最严苛,一旦 match 了,歧义自然七窍生烟被打趴下了,非常精准,但覆盖面常常不够。这关键词怎么用呢?需要给新人讲解为什么关键词共现也可以排歧。于是,顺手牵羊,就用了这么个案例:说 ED 是两个字母的缩写,歧义得很,查查缩略语词典,可以找出一长列可能的词义来,包括不举。但是,哪怕是 backoff 到 Document level,这个排歧也是有效的,因为有的时候,词与词之间有很强的 semantic coherance(其实关键词技术横行NLP领域多年,其诀窍就在于此)。具体说来,ED 的同一篇文章中如果出现了关键词 Viagra 或 Pfizer,它就死定了,绝不会有其他的解释。这时候,句法结构就不必要了(而且句法也不能跨句,更不用说跨越段落去影响了)。俗话说,戏不够,词来凑,这戏就是结构:如果 SVO 太窄或太不全,recall 不够,那就用词的共现来凑呗。懂得这个原理,NLP就入门了。

话说这个讲解还真有效,甚至实习生也一听就明白,原来语法结构与关键词共现还有这样的后备关系啊。

伟哥故事完。



【相关】

立委科普:NLP 中的一袋子词是什么


 立委科普:关键词革命 


立委科普:关键词外传

 

《朝华午拾:创业之路》


《朝华午拾 - 水牛风云》




【置顶:立委科学网博客NLP博文一览(定期更新版)】  




http://blog.sciencenet.cn/blog-362400-952708.html

上一篇:《泥沙龙笔记:NLP component technology 的市场问题》
下一篇:《泥沙龙笔记:parsing 的休眠反悔机制》

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-17 20:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部