《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《泥沙龙笔记:再聊关键词和SVO》 精选

已有 3707 次阅读 2015-10-22 02:16 |个人分类:立委科普|系统分类:科普集锦| 搜索, 关键词, 主谓宾, SVO

白: (关于SVO取代关键词)要我是广告商,这种变化不值得去搞。要搞就搞大的。增加的定价复杂性和收益不一定匹配。如果这种变化导致广告商不给钱了,搜索公司不会干。不是说技术进步点在句法,广告标的的表现也一定在句法。配套一系列东西,计量等等,都要动。包括博弈,在博弈中定价,本来是清晰的,regex一来,糊涂了,SVO也一样问题。
我: 不过,从广告商的终极目标来看,这些问题都是技术层面的问题,总是可以想到办法来规约双方的,前提是,加入了 regex 或更进一步 加入了 SVO,广告的精准投放可以获得大幅度提升。现在我想要鼓吹的就是,后者的条件已经成熟,越来越成熟,精准投放不是梦。关键词对于传统广告,实现了针对客户的初级阶段的精准投放,引起了互联网产业的革命。现在谈的是高级阶段的精准投放,也有一场革命。
白: 不见得,标的的属性和商业模式的匹配与否,直接决定标的能否被采纳。胆子忒小了,步子也忒小了。太老实了呗。技术进步到句法,标的就在句法里找。这就叫老实。
我:
 
这里有一个 backward compatibility 类似的考量。基本上说,新的模式应该是这样的
,
这是一个 backoff 模型: SVO backoff 到 regex; regex backoff 到 keywords
对于拥抱创新的广告商,让他尝到 SVO 高级阶段精准投放的甜头。等到这个甜头被广泛谈论以后,整个产业就会整体上从关键词模式上升到SVO模式。

即便整体模式转变了,也不妨碍人们继续使用关键词,但那个时候的关键词使用是在具体的场景下进行的。这就好比我们说话通常都是合法的相对完整的句子,因为这是我们的语言能力决定的,但是这不妨碍我们在特定情形下,躶体出境,说不太合法的话,譬如在社交媒体,譬如在打电报,譬如尼克和冰在一起的时候。这些时候,SVO 不是必须的。

其实 SVO 根本不像人们想象的那样高深,它是相当 intuitive 的,不过是 who did what 这样的事件描述。如果说教育全民学 SVO 可能是一个艰巨的任务,对于广告商、对于搜索供应商、对于 Power users,这个 SVO 一点也不难。它比学会用 regex 容易,比 SQL 更是简单多了。

白: 兼容有另一种处理办法。首先要确定,广告商和广告所宣传的产品供应商不是重合的,而且跨度可以很大,对不对?加上SVO,标的数量即使没有关键词的立方级,至少也有平方级,对不对?我的不同意见恰恰就在这里,广告代理越综合,标的选择越不宜细粒度,细粒度的事儿,交给技术上去做。精准投放和标的的粒度是两回事,可以解耦。当标的规模出现量级的变化时,这种脱钩尤为显得重要。
我说的是,商业标的的粒度变粗、同时技术标的的粒度变细,才对广告商有吸引力,否则他们会宁要关键词模式。
比如理发店,最终是想向客户推销某种储值卡,但是客户可能更关注哪个发型师给你服务。因此,推销卡的任务摊派给发型师好了,这就是粗粒度。发型师再来细粒度因人而异。见什么人说什么话,理发师全管了,但是包销多少卡,不需要用户级别的个性化。关键词模式有一点是错的,就是用户的粘性和他们使用的关键词有关。regex和SOV要想继续这个错误,肯定走不远。要想纠正这个错误,可参考理发店模式。有粘性才有广告,精准投放是技术手段但不是产生粘性的必要条件。更精准,不一定更有粘性。不管是谁,粒度一定很粗。性价比不会很高。
我: 先搞清白老师的问题。明确一下,我和白老师现在谈的是关键词作为广告标的和广告入口这个模式的利弊,以及可能不可能革命这个模式。
白老师提出了很有意思的疑问:细颗粒度的 SVO 不适合做广告的标的: 还是关键词合适。原因之一前面说过,就是关键词直观,少扯皮。这一点我的回应是,确实有这个问题,但这是技术层面的,终究可以解决扯皮和定量的问题,如果让“标的”与“入口”分离,并且找到它们合适接口的话。对于广告商,终极目的不会变,他就是要精准投放,看到广告的 1000 个潜在客户,是100个真地感兴趣开始点击了,还是 200 个,转换率就会不同,这都是精准投放的硬指标,都是可以定量测量的。
咱们后退一步,我的问题是:广告商想表达的意思,关键词能不能表达?如果有难以表达的情形,那就是现有关键词模式的局限。而突破这种局限的唯一办法是给关键词增加新的维度,譬如 regex 或者 SVO 等关系。
还是举个容易说明的例子吧,如果一家 VC 想给自己做广告,其中一个场景就是,如果客户搜寻公司购并,或者客户点击的网页谈的是公司购并,那么我觉得那才是我应该显示广告的好地方。
这样一个广告的精准投放需求,关键词怎么表达?现在的办法就是出卖两个关键词,或者一个合成词:公司购并。这个效果差太远了,因为谈论公司购并或者搜寻公司购并的,里面恰好提到这两个词的,是少数。多数的情形都是,张三购并了李四、苹果要吃掉特斯拉之类,这个没有 SVO 怎么玩得转?
白: 咱们设想啊,假如一个发型师是冰冰,另一个是圆圆,还有一个是娜娜,大家都有类似的精准程度……这时候粘性靠啥?1000个变成1000000个,广告商的工作量就大1000倍。
我: 性价比不高,确实可能是一个问题。这个层面的问题也是现存的关键词模式的问题。
白: 对,但是你的标的规模平方级放大的时候,问题也随之放大。所以性价比不得不考虑。
具体地说,是专业广告代理向智能搜索平台定制自己认可的人机交互虚拟代言人
数据是同一批数据,SVO是同一批SVO,但是虚拟代言人决定粘性竞争力。
丁: 这里限定了广告投放的两个具体场景:  搜索公司的针对用户的搜索行为,出发点是“search string, 用户寻求内容,寻求解决方案" ,内容平台网站针对用户网页浏览行为,出发点是”page/site content, 用户浏览特定领域内容“ , 理发师更类似于后一种(广告商直接投放垂直领域网站)
洪: @wei deep parsing用于广告投放好倒是好,但可能对用户隐私是一种深度侵犯。
我: 不会吧,任何svo 都是抓取某类事件,而不是针对特定用户。如果特定用户的行为描述match了投放的 svo,那也是公共信息,抓到的不是某一位,而是一大批符合条件的人。换个角度 同样的信息关键词也可能抓到,只是抓得不够准而已。
举个例子,譬如,如果某个广告想投放给并购了其他公司的那些大公司,那么这个 SVO 广告投放大概就是:
   V:"购并"|"购买"|"买"|"吃"
   O:[公司类]
注意谓语V的坑里面是枚举的关键词(SVO框架里称为驱动词),OR 的关系。而宾语的坑则不同,它里面不是关键词,而是词的 feature or tag,这就克服了关键词没有概括性的缺点。
这里彰显了关键词的两大局限:(1)不能抽象概括,只能用直接量;(2)不能规定语法关系。
这样的VO就抓住了一批做S的公司,如:微软,IBM,Facebook,。。。,这里面不涉及啥隐私,因为这些并购消息都是公开发布的。
洪: 在mail或用户文档中按keyword投广告,只是scan文本,keyword spotting,除了一些敏感领域,隐私不是问题。但parsing involved,理解分析让人担心隐私泄露。regex matching,谷歌/百度的sponsed search应该已经在用。
我: boolean query 之所以在某些服务商和一些power users 可以无限复杂化,就是为了弥补简单关键词的这两个不足而生的,可这不是 “人活儿”,而且毕竟是关键词框架内利用与或非而来,因此捉襟见肘,比起SVO表达力还是远远不够,无法应对远距离的挑战。是没办法的办法。因此,backoff 实际上是这样: simple query --> boolean query --> regex query --> SVO
SVO,特别是VO,具有普适性,几乎可以涵盖一切事件,因为事件最自然的语言表达就是主谓宾,VO往往是定义一个事件的必要条件,而主语在语言学上属于 external arg,是可以省略或隐藏的(譬如在被动语态或不定式短语中)。动宾定义事件的例子很多,再给一些例示如下:
1. "撤销" ... "职务" (裁员事件
2. "丢" ... "工作" (失业事件)
3 "修理" ... [电器类] (电器修理事件)
4. "发布" ... [产品类] (产品发布事件
5. "伤" ... [身体部位类] (譬如车祸、事故等)
等等。



【相关】

泥沙龙小品:关键词必须革命,没商量的 2015-10-20

《立委科普:关键词革新》 2015-10-17

《立委科普:关键词外传》 2015-10-12

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-929933.html

上一篇:泥沙龙小品:搞自然语言的,不能过度思维
下一篇:有感“不能过度思维”
收藏 IP: 192.168.0.*| 热度|

3 陆泽橼 章成志 shenlu

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 13:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部