《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《新智元:有了deep parsing,信息抽取就是个玩儿》

已有 7097 次阅读 2015-12-30 08:40 |个人分类:立委科普|系统分类:科普集锦| style, business, 老中医, 白猫, 新智


courtesy of 微软绝句律诗 online:http://couplet.msra.cn/jueju/ 

我: 一直在想@白硕 老师说的话,白老师说话常让人费些思量;“有应用背景必被裹挟”,“被裹挟就意味着不能中立发声”。听上去像是“被迫”,如果是从一个人的背景和出身看,各人背景不同,角度不同很自然常见,但那不是被迫,是不由自主。如果是背后有金主,必须为其发声或宣传,可能会有些被迫的成分,另当别论。不过,工业界的金主(如果公司老板算金主的话)一般不在乎学术宗教。我遇到的工业老板有两类,一类是根本不在乎,对技术不懂,没看法,但无论白猫黑猫都持不明觉厉的鼓励态度,他只关心不同的 business use scenarios。另一类是不知不觉被学界影响或洗脑,天然地认为NLP=ML,忽然蹦出个非ML的NLP,搞不明白是真货还是骗人,于是敬而远之或简单排斥。后一种没少遇到,他们的怀疑排斥态度是可以理解的。这就好比本来带着病去看西医,突然来了个卖膏药的老中医,看上去就不能不令人生疑,虽然不能肯定是骗人,但总是增加了危险度。人在不懂的时候,随大流是较好的策略。这个群里的人很少有我所经历的这种夹缝中求生存的感受,30年前入行开始到如今。@雷司令大概是最近的能够多少有同感的。绝大部分的同行都是主流生主流长,非主流眼看着一个个被淘汰殆尽。没被淘汰的沦落为资料员,时间长了就少了见识和气势,构不成制衡。入行30年,直面十字军东征,那是兵败如山倒啊,我军片甲不留。我的幸运在于一直在小公司创业,一人之下,一组之上,有独立王国和平台。这个救了我。

雷: @wei 能真正工作的也就这个了。@wei 赞一下你的坚持和工作!
Jixhu: @wei  现在主流大师了:-)
白: @wei 想多了。我说的裹挟,与金主无关,只是指有时会不由自主地把自己最熟悉的背景当成唯一的背景。谁都难免。
我: @白老师,我其实是借题发挥,想说一下非主流的精神感受。做非主流非常不容易,有时很难堪。明明觉得自己是对的,可是有理无处说。
白: NLP是个拉出来遛遛的行当,根本没必要分主流非主流。系统就是理。

我: 有相当一段时间,我的感觉是,自己是在一个对手是裁判的环境下去竞赛。生杀予夺,无论学术发表还是研究资助,都是对手在做裁判。当年有美国政府的 grants,还有些不得不为的理由。后来脱离了 grants,就自我解放了:I quit,不跟你玩了。

30年学术一边倒的结果就是断层。我这样的计算语言学家后继无人,成孤家寡人了。所有的教授都必须主流,才能生存,发表或拿基金,才能资助自己的学生,组建团队。这个状况中外皆然。30年刚好一代人,于是断层就表现在整整一代。这就是机器学习老革命家 Church 作为有远见的资深主流的忧思所在,他在长篇大论Church - 钟摆摆得太远】(在下精心翻译)中的反思和呼吁振聋发聩,quote:

本文将回顾一些我们这一代人曾经“反叛”的理性主义观点。遗憾的是,我们这一代是如此成功,以至于这些理性主义观点被人们忘却了。有些重要的理性主义代表人物如皮尔斯 (Pierce) 在当今流行的教科书里甚至没有提及。如此下去,下一代人可能没有机会听到理性主义一方辩论的声音。
他作为30年前那场统计 “革命” 的旗手级人物,在 “过度成功" 以后,不是得意忘形,反而忧业忧学,其高度令人肃然起敬。
顾: 安全受保障的贵族,方能有独立精神。目前的学术界显然不是为贵族-即使只是精神贵族-准备的,工业界就更不是了。
白: 这都是门户之见。
我: 他看到的问题真切而深刻,开出的药方却不对。他以为回到乔姆斯基或皮尔斯,就是克服主流的傲慢偏见的良方。他谆谆教诲新一代学者不能满足于追随ML的潮流,而是要扎扎实实坐下来学一些语言学课程。所提到的语言学就是乔姆斯基作为旗手的所谓形式化的 “语言学”,但这类研究自身也步入了乔氏的迷途(乔姆斯基批判泥沙龙笔记:再聊乔老爷的递归陷阱)。
白: 还是那句话,NLP没有纯学术,一切都带有工业界的痕迹。今天的ML也早已不是当初的样子。
我: 后一个观点我以前在沙龙里论过好几次,真地就是乔氏陷阱。
白: 乔氏又不是为NLP而生的。
我: @白老师的包容和兼收并蓄,是极少见的,但是很多主流大牛完全没有这个眼界。他们太忙了,沉迷于自己的世界和成功,忽视或鄙视一切的非我族类。虽然乔氏不是为 NLP,但是其语言学形式化的方向自然而然被认为应该与NLP的期许相吻合。
白: 语言学形式化的道路千万条。
我: 可是 NLPers 即便有耐心进入乔氏的世界,也大多浅尝辄止,失望而归。所以说,Church 给的良策不奏效。
白: 所以我不认同呢。我看到的是殊途同归。
我: 对,理想的状况是你中有我,我中有你。不是那种凑合并存。凑合并存比一边倒强,也能在应用中较容易实现。譬如 backoff model 类的应用系统,统计仍然做统计的,规则仍然做规则的,然后人为组合在一起。拿规则对付精准,拿统计来兜底。这样的结合容易而且合理。但不算是殊途同归的融合,是低层次的协作。更高层次的融合,需要有素质和洞察力的导师,以及尽可能有两栖训练的学生。感觉上,白老师大概是处于这种状况,桃李满天下,手中有有生力量,白老师自己的宏观指导可以保证做到不走偏,做到更好的融合。我也有一点这个条件,看运气了。如果我有机会与 ML 老搭档做项目,凭着多年的互相了解和欣赏,应该可以做到更深的融合。
往: 拿足够多的实例对付精准?
我: 足够多的实例对付精准只是另一路的一个子集,叫做 Expert Lexicon 这样的东西。但规则系统是一个体系,除了 expert lexicons 这样 word driven rules 以外,还有抽象一点的规则。其实真正可以融合两面的地方,更可能是词例化的现象,这是NLP中最繁难的部分,属于长尾或例外,编不胜编,写不胜写。而在 expert lexicon 之上的东西,一般是可以 ”见底“ 的,靠人工编码在有限的时间内可以搞定。既然可以搞定,也就无需融合。譬如,句法的大部是属于可以见底的东西。抽取的几乎所有任务都是可以见底的。“见底” 就是以前说到的 tractable tasks,有经验的专家一眼可以看到底。有人问,自然语言文法那么复杂深奥,你怎么能说是一个 tractable task,可以一眼看到底呢?其实,说能见底是指排除了一些长尾和 corner cases 以后的语言现象,那个真地是清澈见底。而长尾问题在有限时间里是做不全的,只能是 incrementally 地增强,利用类似 Expert Lexicon 这样的机制。在 domain independent 的核心引擎的开发中,做不全长尾不是问题,做多了有时反而是累赘。我们遭遇过也观察到过 over-done 的系统,负载太重,不适合做核心引擎,维护和运行都不利。如果适度放掉长尾,其结果就是一个不完美的引擎。但是到了开始使用这个核心引擎的语用场合,譬如到了需要针对 domain 和产品去信息抽取的时候,我们会发现,那无边无际的长尾问题一下子聚焦了。不在焦点之内的所有的长尾缺失对应用毫无影响。而在焦点之内的长尾问题一下子变得 tractable 了。这就是信息抽取概念的划时代贡献,无论自然语言多复杂,多不逻辑,多不讲道理,但对于任务不相关的部分,可以完全无视。等到聚焦以后,我们可以通过弥补引擎的办法,或者通过 IE patching 的办法来对付恰好在焦点中的 ”长尾”,实际上不是长尾了,长尾聚焦之后变成短尾了。
白: IE告诉我们,玩具也是生产力。

我:  对,每个 IE 任务,单个看来,就是玩具。也正因为此,IE 可以绕过核心引擎。主流的大部一直都是绕过 parsing 的。如果是一锤子买卖,绕过核心引擎,也不无合理。这就回到@白老师昨天提到的问题:到底这个核心引擎的中间件还有没有必要?单个而论,可能是没有必要。但是如果面对的是不断变化的 IE 任务,面对的是善变的产品经理,那么 deep parser 是 IE 核武器的结论是可以成立的。除了最近九年的工业开发外,我此前集中做了八年的 IE grants,把这个东西从头到脚摸了个遍,可以说的就是,如果 deep parsing 靠谱了(长尾不计),那么 IE 简直就是玩儿。唯一不是玩的 IE 是后来的情感分析(或舆情抽取)。那个需要一些苦功夫,舆情语言的复杂多变和模糊不确定,比起传统的以事实作为抽取对象的 IE 要困难得多。传统的 IE 没有挑战性。尽管如此,IE 的作用是巨大的,有多少产品的想法,就可以定义多少种不同的 IE 要求来。但万变不离其宗,只要 IE 面对的是自然语言,它就必然总体上服从这个语言的文法,因此 parser 成为核心引擎的 IE 系统就顺风顺水,感觉是无往不利的样子。知识瓶颈被很大程度地克服了,完全没有必要要那么多的带标数据。有了 parser,只要一些示意性的带标数据就够了,开发者可以根据示意举一反三。大多数 IE 开发任务,在有靠谱 parser 的支持下,可以在 2-4 周内开发完成,满足应用的基本需要,后去就是维护和根据 field 返回的 bugs,做增量修补而已。所以说 parser 打开了通向应用的大门和无限可能性。从这一点看,不是可有可无的问题,而是想不想弹药库里存放核武器的问题。作为知识图谱的基础技术 IE,从方法学上看,是一个解决了的问题。只要有大数据,有钱,有图谱的方向和应用考量,就可以做出来,没有多少技术上的风险。

又成自言自语了,但意犹未尽,姑且听之吧。最后举几个例子,说明 IE 很多就是一个玩儿。IE 的传统任务中有一些 events 需要抽取,一个是 Management Succession (高管变动),一个是产品发布(Product Launch),还有一个是公司购并(Company Acquisition),当年,这些典型的 IE 任务都来自于对企业市场的情报需求,是被看做一个有挑战性的情报挖掘的任务。有了这些情报,可以做出企业 BI (Business Intelligence) 方面的应用来。可是,现在看,这些任务简单到比玩具还不如 IF  你有一个 deep parser 核武器的话。

什么叫产品发布?顾名思义,就是:公司(S)发布(V)产品(O),some company launches some product。有了parser,所谓的 IE 开发就是照着 self-evident 的定义,编几行代码,pseudo-code 如下:
Verb=launch|release
(Subject=Company)
Object=Product
就这么一下 SVO search and IE mapping,就搞定这个事件抽取的大部了。上面的SVO抽取规则中,Subject 是可有可无的。所有的 dirty work 都被 deep parsing 做了,到了 IE 层面,就是一个玩儿。哪些 dirty work 呢?主动语态与被动语态:
Apple just launched its 10th generation iPhone 6S yesterday.
iPhone 6S was released yesterday
动词和名词:
the recent release of iPhone 6S was not a hit as expected
谓语动词和非谓语动词:
the recently launched iPhone 6S turned out not to sell well
诸如此类。
总之是表层结构的多变都被 deep parser 吃掉了,吃掉的根据就是英语的文法。它适用于一切 domains,因此是核心引擎擅长也是应该做的 dirty work。
公司购并以前举例过,那也特别简单,根据定义就可以了:what is Company Acquisition? It is a company (S) acquires (V) another company (O).  简单的 SVO pattern 就搞定。
高管变动呢?稍微复杂一点,多了一些 driving words,但是做起来也还是跟玩儿差不多。先想一想,语言是怎样表达高管变动的,用了哪些关键动词,其相应的 SVO 是什么。譬如:appoint sb as CXO 是一种,CXO step down 是另一种,replace sb by sb else as CXO 也是一种,一共也不过不到一打的 driving words,那就根据这些 words 写 SVO patterns 即可。给两天时间,有经验的开发人员大体可以搞定,就是这么简单。如果能轻松搞定,为啥还要去组织人力去标注呢?那个 ML 的知识瓶颈在这里已经不存在了。
结束语是回应 @白老师昨天的问题:到底 parser 有没有必要?答案是:对于绝大部分抽取任务,parser 就是核武器,非常厉害。


【相关】

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》 2015-12-26

Church - 钟摆摆得太远】,【计算机学会通讯】2013年第12期

【NLP主流的傲慢与偏见】

【NLP主流最大的偏见,规则系统的手工性】

【NLP主流偏见之二,所谓规则系统的移植性太差】

 乔姆斯基批判

泥沙龙笔记:再聊乔老爷的递归陷阱


【置顶:立委科学网博客NLP博文一览(定期更新版)】  





https://blog.sciencenet.cn/blog-362400-946787.html

上一篇:《泥沙龙笔记:再谈 cyc》
下一篇:《旧文翻新:立委流浪图》
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 16:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部