|||
讲个伟哥的故事。
当年在水牛城的时候,我们开始开发信息抽取挖掘(如今叫知识图谱)的产品,名叫 Brand Dashboard,就是从在线新闻和论坛等专门收集品牌的全方位信息。这个产品生不逢时,超出时代了,因为那时社交媒体还没诞生,网络舆情和品牌情报还处于 BBS 和论坛新闻的时代。即便如此,大企业客户的market 还是有的,我们的顾客之一就是这个伟哥的厂商,大名鼎鼎的 Pfizer。
当时为了这个产品,我领导开发了一个品牌和术语的消歧模块,其中用到的排歧条件包括利用句法关系如SVO的限制,backoff 到 keywords。关键词条件就是所谓共现关系,可以根据距离进一步区分为在同一个句子,同一个段落,或者同一篇文章。所以这个排歧的 backoff model 实际上就是:
SVO --> keywords within S --> keywords within P --> keywords within D
SVO 不用说,条件最严苛,一旦 match 了,歧义自然七窍生烟被打趴下了,非常精准,但覆盖面常常不够。这关键词怎么用呢?需要给新人讲解为什么关键词共现也可以排歧。于是,顺手牵羊,就用了这么个案例:说 ED 是两个字母的缩写,歧义得很,查查缩略语词典,可以找出一长列可能的词义来,包括不举。但是,哪怕是 backoff 到 Document level,这个排歧也是有效的,因为有的时候,词与词之间有很强的 semantic coherance(其实关键词技术横行NLP领域多年,其诀窍就在于此)。具体说来,ED 的同一篇文章中如果出现了关键词 Viagra 或 Pfizer,它就死定了,绝不会有其他的解释。这时候,句法结构就不必要了(而且句法也不能跨句,更不用说跨越段落去影响了)。俗话说,戏不够,词来凑,这戏就是结构:如果 SVO 太窄或太不全,recall 不够,那就用词的共现来凑呗。懂得这个原理,NLP就入门了。
话说这个讲解还真有效,甚至实习生也一听就明白,原来语法结构与关键词共现还有这样的后备关系啊。
伟哥故事完。
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 18:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社