博文

【立委科普：NLP应用的平台之叹】精选

已有 4986 次阅读 2016-6-7 20:01 |个人分类:立委科普|系统分类:科研笔记| 平台, 自然语言, 深度分析, 情报抽取

我前几天的平台之叹是有感而发的。

米国的脸书（Facebook）与中国的微信类似，就是有一个巨大的有粘性的平台，善用的话，变现很容易，而盈利是一切business 的最终价值认可。Facebook 几天前推出 Deep Text，举的例子就是，有人在脸书上表达了要出行，系统于是就直接连上了 Uber 的链接，这岂止是精准广告，这同时也是为客户服务：平台几乎就是每个人的私人秘书，你想要什么，我就给你创造好条件，等你下单。

把令人生厌的广告推销转化为贴心服务，满足了客户，又实现了生意，这就是平台的力量。而背后的语言技术其实清晰可见，就是信息抽取（IE）。信息抽取是非常成熟的技术，因为抽取是预先制定好目标的，有了深度parsing，抽取是一打一个准。

我的一叹是，这个想法我们早就有过尝试，早就证明了这是自然语言技术的最擅长和实用的部分，可是如果没有合适的平台，宝贵情报的抽取就实现不了价值。过去四五年，从一开始的抽取 needs statement，到具体的 unmet needs，到后来的 wishlist 的抽取，再到 purchase intent，一步步细化，一次次精细的抽取定义，“谁”需要“什么”在“什么方面”，等等，每一次deliver给产品经理，他们都很高兴，但是最终还是很难在我们有限的 B2B 的产品架构里面，转化成有价值的 feature

自然语言的复杂使得 NLP 是一个 imperfect technology，如果要想精准理解大海一样的自然语言的全部，那是一个无穷无尽的任务。但是上例的信息抽取不同，它是语义聚焦为语言的一个子集，这个 use case 只需要这个情报，另一个产品只需要那个情报，语言中其他的东西与我无关，这就是信息抽取聚焦的威力。这是 NLP 和 deep parsing 最拿手的事儿。

大体的场景是这样的： 1. 产品经理发现了什么情报有价值，可以转化为产品服务； 2. 产品经理通过案例定义这个情报需求：有这样的语言表达，我需要的是这样的情报抽取； 3. NLU 开发人员得到这个 specs，收集更多的正反案例，形成 dev corpus，开始开发：假设 deep parsing 已经实现，那么这个过程实际上就是在句法的逻辑层面（logical form），而不是在 ngram 的关键词的线性序列层面，去抓取这类表述的 patterns。由于 deep parsing 消化了语言表层的不同结构，把它逻辑语义化了，这个任务不仅变得可行（feasible and tractrable），而且变得高效，因为逻辑层面的一条规则等价于ngram的千百条规则。

根据我做这类工作的多次经验，大体上，一个抽取任务在 deep parsing 的支持下，1-2周的开发足以提交。进入产品 beta 以后，就形成了反馈回路，少量的错误在后续的维护过程中会被纠正，漏掉的情报在质量检测部门的帮助下，会持续得到改良。经过几个循环，就可以摘掉 beta，正式作为产品的一部分发布。

1-2两周可以完成一个具体的情报抽取任务，是一个什么概念？在我们的实践中，调查客户需求，根据这个需求定义为一个情报抽取的任务，至少需要三个月的时间；等开发人员提交了情报抽取的模块到 app 把情报体现到产品上也需要两三个月的时间。

从这个流程可以看出，本来认为是最繁复的语言理解的技术工作，在整个链条上实际上是最快实现出来的，瓶颈永远不在 NLP，而在情报定义和利用的两端，一端是产品经理，一端是 app 的开发和 operations。

当然，上述情形有两个前提：1. 领域独立的 deep parsing 已经就绪，核武器已经等在那里了； 2. NLP 的任务是情报的抽取。

一切可以利用预先定义的情报抽取来支持的产品，都是如此。这些情报包括各种商业情报（产品发布、高管变动、股市波动、购买意图等等），包括舆情（谁喜欢不喜欢什么在哪些方面，为什么等），包括用户背景情报（年龄、教育、宗教、生活习惯、人生阶段如在校、结婚、退休等，甚至有没有宠物），等等。

NLP 深度分析的大有可为可见一斑。至于定义了这类情报，是在线抽取并应用，还是抽取挖掘到数据库，至于是用于什么产品，譬如问答系统，智能 bots，这些决定于具体的产品概念。

这就是 parsing --》IE --》 products 的技术产品或服务的阳光大道。当繁难的 deep parsing 就绪了，IE 的开发就是上面薄薄的一层，它可以迅速随着产品和用户需求的改变而改变。因此一个大的平台对于 deep parsing 的发挥至关重要，平台大，情报需求就多，转化或嵌入为产品的机会就多，情报价值就可以实现，无论是提升用户体验还是商业变现。

而没有这样的平台，辛辛苦苦造出的核武器，只能用于几个特定的商业情报用例（譬如舆情和客户情报），语言技术的潜力无法得到充分发挥，这就是技术人的郁闷。这薄薄一层的 IE 的逻辑层模式开发，具体是怎么个样子，有兴趣的话，以后可以另文 illustrate，不过这些都是细节了，虽然是有趣的细节。

【相关】

【立委科普：自然语言系统架构简说】

《新智元：有了deep parsing，信息抽取就是个玩儿》

【立委科普：信息抽取】

《朝华午拾：信息抽取笔记》

泥沙龙笔记：搜索和知识图谱的话题

《知识图谱的先行：从Julian Hill 说起》

【置顶：立委科学网博客NLP博文一览（定期更新版）】