《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委科普:NLP应用的平台之叹】 精选

已有 5019 次阅读 2016-6-7 20:01 |个人分类:立委科普|系统分类:科研笔记| 平台, 自然语言, 深度分析, 情报抽取

我前几天的平台之叹是有感而发的。

米国的脸书(Facebook)与中国的微信类似,就是有一个巨大的有粘性的平台,善用的话,变现很容易,而盈利是一切business 的最终价值认可。Facebook 几天前推出 Deep Text,举的例子就是,有人在脸书上表达了要出行,系统于是就直接连上了 Uber 的链接,这岂止是精准广告,这同时也是为客户服务: 平台几乎就是每个人的私人秘书,你想要什么,我就给你创造好条件,等你下单。

把令人生厌的广告推销转化为贴心服务,满足了客户,又实现了生意,这就是平台的力量。而背后的语言技术其实清晰可见,就是信息抽取(IE)。信息抽取是非常成熟的技术,因为抽取是预先制定好目标的,有了深度parsing,抽取是一打一个准。

我的一叹是,这个想法我们早就有过尝试,早就证明了这是自然语言技术的最擅长和实用的部分,可是如果没有合适的平台,宝贵情报的抽取就实现不了价值。过去四五年,从一开始的抽取 needs statement,到具体的 unmet needs,到后来的 wishlist 的抽取,再到 purchase intent,一步步细化,一次次精细的抽取定义,“谁”需要“什么”在“什么方面”,等等,每一次deliver给产品经理,他们都很高兴,但是最终还是很难在我们有限的 B2B 的产品架构里面,转化成有价值的 feature

自然语言的复杂使得 NLP 是一个 imperfect technology,如果要想精准理解大海一样的自然语言的全部,那是一个无穷无尽的任务。但是上例的信息抽取不同,它是语义聚焦为语言的一个子集,这个 use case 只需要这个情报,另一个产品只需要那个情报,语言中其他的东西与我无关,这就是信息抽取聚焦的威力。这是 NLP 和 deep parsing 最拿手的事儿。

大体的场景是这样的: 1. 产品经理发现了什么情报有价值,可以转化为产品服务; 2. 产品经理通过案例定义这个情报需求:有这样的语言表达,我需要的是这样的情报抽取; 3. NLU 开发人员得到这个 specs,收集更多的正反案例,形成 dev corpus,开始开发: 假设 deep parsing 已经实现,那么这个过程实际上就是在句法的逻辑层面(logical form),而不是在 ngram 的关键词的线性序列层面,去抓取这类表述的 patterns。由于 deep parsing 消化了语言表层的不同结构,把它逻辑语义化了,这个任务不仅变得可行(feasible and tractrable),而且变得高效,因为逻辑层面的一条规则等价于ngram的千百条规则。

根据我做这类工作的多次经验,大体上,一个抽取任务在 deep parsing 的支持下,1-2周的开发足以提交。进入产品 beta 以后,就形成了反馈回路,少量的错误在后续的维护过程中会被纠正,漏掉的情报在质量检测部门的帮助下,会持续得到改良。经过几个循环,就可以摘掉 beta,正式作为产品的一部分发布。

1-2两周可以完成一个具体的情报抽取任务,是一个什么概念? 在我们的实践中,调查客户需求,根据这个需求定义为一个情报抽取的任务,至少需要三个月的时间;等开发人员提交了情报抽取的模块到 app 把情报体现到产品上也需要两三个月的时间。

从这个流程可以看出,本来认为是最繁复的语言理解的技术工作,在整个链条上实际上是最快实现出来的,瓶颈永远不在 NLP, 而在情报定义和利用的两端,一端是产品经理,一端是 app 的 开发和 operations。

当然,上述情形有两个前提:1. 领域独立的 deep parsing 已经就绪,核武器已经等在那里了; 2. NLP 的任务是情报的抽取。

一切可以利用预先定义的情报抽取来支持的产品,都是如此。这些情报包括各种商业情报(产品发布、高管变动、股市波动、购买意图等等),包括舆情(谁喜欢不喜欢什么在哪些方面,为什么等),包括用户背景情报(年龄、教育、宗教、生活习惯、人生阶段如在校、结婚、退休等,甚至有没有宠物),等等。

NLP 深度分析的大有可为可见一斑。至于定义了这类情报,是在线抽取并应用,还是抽取挖掘到数据库,至于是用于什么产品,譬如问答系统,智能 bots,这些决定于具体的产品概念。

这就是 parsing --》IE --》 products 的技术产品或服务的阳光大道。当繁难的 deep parsing 就绪了,IE 的开发就是上面薄薄的一层,它可以迅速随着产品和用户需求的改变而改变。因此一个大的平台对于 deep parsing 的发挥至关重要,平台大,情报需求就多,转化或嵌入为产品的机会就多,情报价值就可以实现,无论是提升用户体验还是商业变现。

而没有这样的平台,辛辛苦苦造出的核武器,只能用于几个特定的商业情报用例(譬如舆情和客户情报),语言技术的潜力无法得到充分发挥,这就是技术人的郁闷。这薄薄一层的 IE 的逻辑层模式开发,具体是怎么个样子,有兴趣的话,以后可以另文 illustrate,不过这些都是细节了,虽然是有趣的细节。


【相关】

【立委科普:自然语言系统架构简说】

《新智元:有了deep parsing,信息抽取就是个玩儿》


【立委科普:信息抽取】


《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

【置顶:立委科学网博客NLP博文一览(定期更新版)】  




https://blog.sciencenet.cn/blog-362400-983095.html

上一篇:【新智元笔记:自动句法分析中的伪歧义泥潭】
下一篇:【deep parsing (80/n):植树成林自成景】
收藏 IP: 192.168.0.*| 热度|

2 闫钟峰 武夷山

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 17:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部