博文

《新智元笔记：NLP 系统的分层挑战》精选

已有 6043 次阅读 2015-12-9 04:45 |个人分类:立委科普|系统分类:科普集锦| 分层

斌: 主要看气质，请分词

白: 这个太应景了

我: 过去分词还是现在分词？过去分词用的是 longest principle, 现在分词发现这个 principle 也有不灵光的时候。所谓 hidden ambiguity 是专门与这个著名的 principle 唱反调的。无论过去还是现在，分词总是做不到完美。怎么办将就着呗人不能被分词憋死。

邬: agreed

昊: 分词其实也不是必要的

白: -ed vs. -ing，过去分词现在分词都有歧义……

我: 英语不同，现在分词和过去分词都有形态标记，汉语分词没有标记，分起来就难。

白: 哈，越发双关了

我: 汉语分词都玩了半个多世纪了，不能再玩下去了，应该轻轻放下。所以我呼吁过几次要立法禁止分词。否则绕进去就出不来了，本末倒置，一切为分词服务。我几篇相关博文：应该立法禁止切词研究:=) 再谈应该立法禁止切词研究

白: 看什么应用，很多应用分词就够了。

我: 是，关键词系统，词典系统，分词就是终点。不像 POS，POS 本身不是终点只是桥梁。分词本身可以是终点譬如对于搜索引擎。

作为桥梁，不值得动用太多资源，就为了那么个分词。还有用到常识推理的，据说。分词的本质是需要给 token 查词典, 因为只有查对了词典才会有 lexical features。只有有 features 系统才有抽象度。lexical features 不仅仅是 POS 类，尤其对汉语这些 lexical semantic features （譬如 HowNet 的前 1000 个）对分析很重要。

白: 应该倡导给分析器输入词图，而不是词序列。

斌: 或者说分词对其他研究工作的价值大于其对应用的价值？

白: 如果输入是词图，分析器还麻烦了

邬: 输入should be 词图，分析器should be 麻烦

我: 对于分层系统，词图的确有难处。对于传统的 CFG parsing 就没有，反正是一锅煮，哪条路径最后走通算数，根本就不要什么分词了，只需要把所有可能的词查一遍即可，包括 hidden ambiguity。理论上无效的词走不通 parse 的，所以 parsing 本身就决定了切词。但实际上并不是这样的轻松。还是要分层，一锅煮做不了高质量的分析器。

邬: define quality for analyzer?

白: 词图和分层，这是两件事情。适当编码下，它们不矛盾。

我: define？天知地知，你知我知。

开个玩笑。。。xiaoyun。

其实弄了个什么 PennTree 标准，叠床架屋的，然后大家都拿这个说事儿。还不如彻底简化：来一个语料库，把里面的主谓关系列出一个表来，动宾列出一个表来。然后就数数，算算哪个系统摘出来的关系符合度最高。这多简便，任何 native speaker 可以做判断，都不用语言学研究生去标注。

一种是句法上的主谓宾标准，另一种可以是包括逻辑的主谓宾，也就是把那些隐含的主谓宾也算上。当然也可以加上修饰关系，状语关系，同位语关系，并列关系。一共不超过一打的依从关系。

邬: 我是认真的

我: 我也是认真的。我就觉得这样最简便易行，反映最客观。

邬: 我觉得也许我们对分析器的要求有点过分。

我: 不过分的标准也可以 config 出来，譬如一种是主谓宾，另一种可以是 possible 主谓宾。用后者的话就是开了一个门，允许系统输出 non-deterministic 的关系来。这样 PP-attachement 可以输出两条关系出来，不强求消歧。

白: 叠加态

邬: right

我: 因为实际上在使用的时候，语用的 IE （Information Extraction）层面，这些 Possible 关系非常好用。它保证了 recall，而且可以不牺牲 precision。怎么讲？保证 recall 是因为结构歧义被句法保留了，precision 为啥不牺牲？道理很简单，到了 IE 进入了 domain，你的任务可以有两个支点，而不是只有关系 (arc) 一个支点。node 方面的支点在一个domain里面是很容易搞定的，这样就弥补了关系不确定。

白: 输入输出都是图，但都采用线性表示是可能的

邬: the main issue is analyzers actually do not have enough information to decide.

白: 只要是线性表示就可以分层

我: 这才是parsing和IE的正道。

白: 伟哥的应用场景，后面是有后续手段的，分析器不需要太确定。

我: 就是。parsing 的时候，你面对的是语言大海, 你凭什么要求确定，自己难为自己。可是到了 IE 的时候，这个大海就变成了一条小溪，这时候，ontology, lexical semantics, terminology, word embeddings, word-driven rules, 这一切都可以拿来了，因为语言已经聚焦了，完全的 tractable 了，你当然就不怕那种不确定性了。

群里有后学的话，研究生的话，记住，看懂了这个，你做NLP应用，就不会碰得头破血流。否则你就会跟我们老姜一样千辛万苦才摸索出革命解放的道路。

白: CFG虽然一锅粥，经典算法仍假定token线性输入而不是图输入。如果图输入是一个ground truth，很多事情会不一样的。

我: 那么查词典呢 exhaustively 地查，所有可能的词全部是起点，其中有些词是hidden的，有些是相交的。这肯定不是线性的起点吧。

邬: Lattice input should be the key. if we are not sure, we should not pretend that we are sure. just leave the option open.

我: exactly，keep ambiguity untouched，do not jump to conclusions.

雷: 不丢人

白: 图表示如能结合k-best 用同一种线性机制表示，就完美了。

邬: k-best can be extracted from forest. the problem is of the kbest is it is not that efficient in encoding choices.

雷: 所以就玩森林。在人的认知中，这森林是静态还是动态存在的？

邬: maybe dynamic. We are always looking for reasonable interpretations, we will pick mostly reasonable path and back track when we have to.

雷: 我也是这么认为的！我们可以有，不过要推导。

白: 保留所有结果和所有回溯可能不是问题，在这同时还要分层才是问题。

我: 所以说分层难在接口。分层第二难是interdependency，哪里分，不管怎么切一刀都感觉不周全。如果赶上了完美主义者，就寸步难行了，然后回到一锅粥来。而一锅粥与软件工程和模块化是背道而驰的。一锅粥搞 NLP 成不了气候，很难深入，不好持续发展（incremental enhancement）。总之，分层才是正道。

【相关】

《新智元笔记：【Google 年度顶级论文】有感》 2015-12-09

中文处理的模块化纠结

应该立法禁止切词研究:=)
再谈应该立法禁止切词研究

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-942022.html

上一篇：《新智元笔记：【Google 年度顶级论文】有感》
下一篇：主要看气质，次要看发色

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《新智元笔记：NLP 系统的分层挑战》精选

当前推荐数：3 推荐人：沈智元 赵凤光 shenlu

该博文允许注册用户评论请点击登录评论 (5 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《新智元笔记：NLP 系统的分层挑战》 精选

当前推荐数：3 推荐人： 沈智元 赵凤光 shenlu

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《新智元笔记：NLP 系统的分层挑战》精选

当前推荐数：3 推荐人：沈智元赵凤光 shenlu

该博文允许注册用户评论请点击登录评论 (5 个评论)