《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《立委科普:关键词革新》 精选

已有 3230 次阅读 2015-10-17 10:10 |个人分类:立委科普|系统分类:科普集锦|关键词:关键词,parsing,深度分析,革新| parsing, 关键词, 革新, 深度分析

上篇 《立委科普:关键词外传》提到了关键词的三个面向,关键词作为互联网摇钱树的秘密就在于它是这三面的粘合剂,以信息载体的身份。本篇要论的就是关键词在这三方面所面临的挑战和机遇。一场颠覆式改革正在大数据浪潮中酝酿。
回顾一下,从关键词最大的应用“搜索”的角度,关键词有三个接口两个层面。三个接口是:(1)面对大数据文本,需要事先建立关键词索引(offline indexing);(2) 面对用户的信息需求,关键词query作为默认的搜索形式是在线检索服务(online retrieval)的起点;(3)面对客户广告商,可拍卖的关键词是广告连接用户搜索场景的入口。前二者构成了了关键词的技术层面,着眼于如何满足用户的信息需求:这个迄今不涉及钱,因为互联网大佬们都不约而同选择了免费服务的模式;第(3)项是关键词的生意层面,才涉及 business model:关键词竞价拍卖,唯利是图。原理很简单,我用免费服务吸引用户的频繁使用和眼球,再去广告商客户那儿找钱。对于搜索产业,用户和客户是分离的。这个模式很牛逼,支撑了搜索产业近20年!
可是,随着大数据新时代的到来,随着语言技术的进步,关键词革新在所难免。一方面,盛名之下其实难副,关键词作为信息载体支持现有模式,其局限越来越突出。另一方面,比关键词高级的自然语言处理(NLP)的 深度句法分析(deep parsing)技术业已成熟,就像爱因斯坦体系注定包容并取代牛顿体系一样,深度句法颠覆关键词乃是大势所趋,只是一个时间的问题。

先从关键词的优缺点谈起。关键词的优点是:简单(simple),鲁棒(robust),查全率好(good recall)。这些优点也决定了它的两大局限:(1)查准率差(poor precision);(2)表达手段贫乏(not expressive),甚至无法表达,不能胜任信息载体的工作。

优点缺点一个面向一个面向地谈,这样可以帮助看清关键词的全貌及其发展趋向

先从用户的视角说,关键词的“简单”显而易见,因为任何信息都是词汇组成的,训练用户在词汇中提取关键词是比较自然的事儿,所以基本人人会用。也有开始不会用的用户,譬如不知道把非关键的停止词(stop words)除掉,或者留下了太多的关键词(关键词之间默认是“逻辑与”的关系),这样去搜索,结果往往找不到合适的信息,但是吃几次亏用户慢慢就适应了。

关键词 query 作为检索的入口,其表达的贫乏和局限,我们每个网人都有过体会,有些想找的信息用关键词匹配就是找不到。道理很简单,思想和语言都是二维的,而关键词是一维,严格说,连一维都不够, 因为关键词的默认就是一袋子词,连次序的维度都不在内。具体来说,关键词作为query,既不精准,也不概括,在查准率(precision)与查全率(recall)两方面都有根本的局限。不精准的原因是所查的关键词之间关系是简单的“与”,因此无法确定返回的网页链接(URLs)里是不是有自己想要的情报,还是关键词的偶然共现(如果网页文字很多,偶然共现的可能性很大,返回来的则多为噪音)。对付这类噪音,目前的办法是给关键词加上引号(quoted query)把一袋子词变成线性词串去做 exact match,这个办法增加了词序的维度,的确大大降低了噪音,但同时也往往漏掉了太多,因为语言中相关联的关键词并不是总挨在一起,事实上紧挨着的通常是极少数。作为信息载体,关键词之间的关联的最好表达还是要揭示其内在的文法关系,这一点很少异议。第二条缺陷是关键词不具有概括性,因此也影响了查全率。很多人认为关键词除了简单外,最大的优点就是查全率好,这样看来似乎与缺乏概括性有矛盾。这个疑似矛盾实际上是基于查全率的两个不同定义。查全率的形式定义几乎就是为关键词量身定制的,说的是,关键词检索理论上可以做到100%的查全率:对于被索引的网页,系统完全可以返回所有的符合关键词query条件的相关网页,一个不拉,这在技术上是可以保证的。然而这种“查全率”不能反映用户的真实需求,因为同一个概念完全可能以不同的关键词来表达。满足信息需求的查全率必须以概念而不是关键词来计算。当这个概念是语词不可枚举的时候,关键词技术则根本无法表达,用户所要的查全率无法实现。【注一】

举个例子,如果你想搜寻公司购并的情报,现在的办法就是搜索 “公司购并”。这个效果差太远了,因为谈论公司购并里面恰好提到这两个词的是少数。多数的情形都是,Dell 购并了EMC, 苹果准备购买特斯拉,腾讯要买京东之类。关键词在这里遇到两大挑战:其一关键词没有概括能力,而有很多概念在语言表达中是没有办法枚举的,譬如公司的概念,我们没法在query一一列举所有的公司名: Dell|EMC|苹果|特拉斯|腾讯|京东......,这个给公司自动标注的工作叫做 NE(Named Entity tagging),通常是语言分析系统里面的一个组件。第二,关键词的 query 不允许设定任何文法关系的条件。譬如,公司购并的情报需要”公司“类的词作为 BUY (包括“购并”、“购买”、“买”等) 的宾语(对象),没有这个动宾(VO)条件的限定,返回的文件可能是噪音,里面恰好提到 BUY 和公司,但二者并没有并购的关系。对于这二者,深度分析系统都已经把握 了,其结果表达表现为带有节点语词及其标注的句法树,其中树结构的核心就是SVO(主谓宾)。因此,关键词query的升级应该是 SVO 这类关系条件的表达。这样的技术革新面对的最大问题就是如何培训用户使用SVO而不是简单的关键词 query。面对亿万用户,这似乎很难。然而,用户是可以训练出来的。我们整整一代人都被关键词训练过、洗脑过了,才学会了怎样使用关键词的不同组合尝试找到最好的结果。同理,SVO 也会经历这个用户自适应的过程。只要搜索界面设计得巧妙和intuitive,允许两种搜索并存,尝到SVO搜索甜头的用户会逐渐影响带动其他的用户。

第二个面向是大头,就是对大数据处理的关键词升级。从搜索引擎所面对的整个互联网而言,使用任何比简单的关键词索引更高级的语言技术,即便理论上可以实现,无论从成本还是运作上,都将是一个巨大的挑战,在可预见的将来,没有理由相信仅存的几家互联网搜索巨头会冒这个险。然而,近年来大数据架构的突破性发展,以及硬件成本的下降,至少使得我们相信,在互联网大海的一个子集(譬如社会媒体,譬如维基世界,譬如某垂直领域)施行语言处理技术的升级,是完全可行的。
从行业的总体趋势看,关键词技术不可能永远不思进取而立于不败之地。
我们看到,自然语言的深度分析技术已经进过反复验证和在 niche markets 的产品中成功应用,技术升级的条件业已成熟。 哪怕只利用深度分析的一个部分,譬如只做SVO(主谓宾)
,甚至只做 VO
,理论上也是对所有现存关键词技术驱动的应用(不仅仅是搜索)的一个颠覆。因为突然多了一个维度,在词汇之上,增加了关键的结构信息:非结构的大数据突然结构化了。面对结构的海洋,传统的数据搜索和挖掘势必拓展。挖掘(mining)方面目前做得很浅,就是检索(retrieval)里面的一个小东西,凑合事儿。技术上看二者的关系,parsing 是见树,挖掘才见林。以前只有关键词索引,没有条件见林子,挖掘没有实验基地,限制了它的发展和深入。以此观之,以前所做的不过是 baseline 而已,如今只要有大数据、大计算(parsing比起关键词索引就是大计算)、大存储,再加上新的挖掘和检索的自然拓展,那么凡是关键词技术生存的地方都可以革命,包括以搜索(search)、分类(classification)、聚合(clustering)为基础的各类应用(与搜索直接相关的有智能搜索和问答系统,其他的应用还包括舆情挖掘、客户情报、自动文摘、新闻推送、智能助理、机器人接口等等)。这个总体趋向如此明晰,条件也基本成熟,现在是考验想象力的时候,然后就是产品老总配合语言技术创新者,脚踏实地一个应用一个应用的去做

最后说一下作为搜索公司客户的广告商(金主)。关键词的简单特性,在这里表现为商业标的的清晰,这是一个很大的优点。以关键词博弈定价易于操作,关键词最清晰,最少纠纷,谁买了就归谁,没有扯皮的事儿。广告商只要愿意花钱,可以竞标购买任何热门的关键词,也可以预见自己广告的投放情境,一切都是透明的。有权威人士认为关键词商业标的的清晰是压倒性的优点,以致任何革新如果削弱了这一点就难以成功。尽管如此,关键词的两大局限“精准度差”和“表达力弱”,从广告商的角度同样存在,而且很严重,因为这些局限直接影响了广告商客户的核心利益。长远看来,广告商不可能满足于用简单的关键词来作为广告内容连接用户的表达方式,因为它实在太简陋了。广告商的终极目标是精准投放,关键词虽然比传统广告的被动轰炸要精准,但是无法与语言自动分析理解基础上的精准匹配相比拟。从历史上看,关键词对传统广告的革命就是基于精准投放这个核心价值。前搜索时代,被动轰炸是广告商的唯一模式,突然出现关键词了,精准度大幅度提高,广告效果也容易追踪测量。现在 SVO 出现了,搜索面对的是更高阶段的精准投放,与上次广告革命非常相似。如果说让普罗百姓很快学会SVO来代替关键词不大现实,可作为广告商,直接购买表现力丰富得多的SVO 不是不可以想象的事儿。事实上,也可以对广告商客户做专业服务(professional service),不用他们操心广告高精准投放所需的SVO的具体表达形式,只要展示精准投放的实际效果即可。当然前提是搜索内容的 indexing 也做了相同的革新, 这样才能衔接得上,商业模式的推进才有可能。

总结一下,作为现存语言技术基础的关键词面临一场技术革命,因为语言深度分析技术与大数据处理的技术双方都已经成熟。革命不是杀头,深度分析对关键词,就是爱因斯坦对牛顿。抽取挖掘搜索等的质量大提升需要的是两条腿走路,一条是关键词,另一条就是SVO。到了应用领域的语义语用层,关键词,或者叫驱动词(driving words:严格地说,在SVO中,有的关键词保留成为驱动词,有的抽象为词的 feature了),依然不可或缺,但对关键词技术的颠覆式创新增加了语言结构这个关键。正如语言所老所长吕叔湘先生很多年前谈文法的关键性作用时说的,光有珍珠成不了项链,还要有珍珠串子。作为革新,信息载体应该也必须从关键词向 “驱动词+SVO” 过渡。


【注一

其实,即便一个概念是可以枚举的,关键词 query 也常常困难重重。可以枚举的关键词理论上只要用逻辑“或”即可表达概念的外延,从而保证查全率。但事实上,很多关键词都是多义的,并不能多对一到想要搜寻的概念上,因此产生噪音。事实上,搜索服务曾经做过所谓“同义词扩展”(synonym expansion)的尝试,但很多时候由于自然语言词汇的多义带来的噪音而得不偿失。这个困扰在革命性的 SVO query 框架内不再成为挑战,因为在 SVO 看来,关键词不再是孤立的存在,而是受到上下文的文法关系约束的驱动词。多义在句法上下文中,噪音自然减除。这是 SVO 高于关键词的一个极大优势。


【相关博文】

《立委科普:关键词外传》 2015-10-12

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-928747.html

上一篇:世人皆错nlp不错,民调错大数据也不会错
下一篇:温哥华的美是骨子里的

4 沈律 章成志 bridgeneer biofans

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-20 18:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部