《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《新智元笔记:NLP 系统的分层挑战》 精选

已有 5613 次阅读 2015-12-9 04:45 |个人分类:立委科普|系统分类:科普集锦| 分层

斌: 主要看气质,请分词


白: 这个太应景了
我: 过去分词还是现在分词?过去分词用的是 longest principle, 现在分词发现这个 principle 也有不灵光的时候。所谓 hidden ambiguity 是专门与这个著名的 principle 唱反调的。无论过去还是现在,分词总是做不到完美。怎么办 将就着呗 人不能被分词憋死。
邬: agreed
昊: 分词其实也不是必要的
白: -ed vs. -ing,过去分词现在分词都有歧义……
我: 英语不同,现在分词和过去分词都有形态标记,汉语分词没有标记,分起来就难。
白: 哈,越发双关了
我: 汉语分词都玩了半个多世纪了,不能再玩下去了,应该轻轻放下。所以我呼吁过几次 要立法禁止分词。否则绕进去就出不来了,本末倒置,一切为分词服务。我几篇相关博文:应该立法禁止切词研究:=) 再谈应该立法禁止切词研究
白: 看什么应用,很多应用分词就够了。
我: 是,关键词系统,词典系统,分词就是终点。不像 POS,POS 本身不是终点 只是桥梁。分词本身可以是终点 譬如对于搜索引擎。
作为桥梁,不值得动用太多资源,就为了那么个分词。还有用到常识推理的,据说。分词的本质是需要给 token 查词典, 因为只有查对了词典 才会有 lexical features。只有有 features 系统才有抽象度。lexical features 不仅仅是 POS 类,尤其对汉语 这些 lexical semantic features (譬如 HowNet 的前 1000 个) 对分析很重要。
白: 应该倡导给分析器输入词图,而不是词序列。
斌: 或者说 分词对其他研究工作的价值 大于 其对应用的价值?
白: 如果输入是词图,分析器还麻烦了
邬: 输入should be 词图,分析器should be 麻烦
我: 对于分层系统,词图的确有难处。对于传统的 CFG parsing 就没有,反正是一锅煮,哪条路径最后走通算数,根本就不要什么分词了,只需要把所有可能的词查一遍即可,包括 hidden ambiguity。理论上 无效的词 走不通 parse 的,所以 parsing 本身就决定了切词。但实际上并不是这样的轻松。还是要分层,一锅煮做不了高质量的分析器。
邬: define quality for analyzer?
白: 词图和分层,这是两件事情。适当编码下,它们不矛盾。
我: define?天知地知,你知我知。
开个玩笑。。。xiaoyun。
其实弄了个什么 PennTree 标准,叠床架屋的,然后大家都拿这个说事儿。还不如彻底简化:来一个语料库,把里面的主谓关系列出一个表来,动宾列出一个表来。然后就数数,算算哪个系统摘出来的关系符合度最高。这多简便,任何 native speaker 可以做判断,都不用语言学研究生去标注。
一种是句法上的主谓宾标准,另一种可以是包括逻辑的主谓宾,也就是把那些隐含的主谓宾也算上。当然也可以加上修饰关系,状语关系,同位语关系,并列关系。一共不超过一打的依从关系。
邬: 我是认真的
我: 我也是认真的。我就觉得这样最简便易行,反映最客观。
邬: 我觉得也许我们对分析器的要求有点过分。
我: 不过分的标准也可以 config 出来,譬如一种是主谓宾,另一种可以是 possible 主谓宾。用后者的话就是开了一个门,允许系统输出 non-deterministic 的关系来。这样 PP-attachement 可以输出两条关系出来,不强求消歧。
白: 叠加态
邬: right
我: 因为实际上在使用的时候,语用的 IE (Information Extraction)层面,这些 Possible 关系非常好用。它保证了 recall,而且可以不牺牲 precision。怎么讲?保证 recall 是因为结构歧义 被句法保留了,precision 为啥不牺牲?道理很简单,到了 IE 进入了 domain,你的任务可以有两个支点,而不是只有关系 (arc) 一个支点。node 方面的支点在一个domain里面是很容易搞定的,这样就弥补了关系不确定。
白: 输入输出都是图,但都采用线性表示是可能的
邬: the main issue is analyzers actually do not have enough information to decide.
白: 只要是线性表示就可以分层
我: 这才是parsing和IE的正道。
白: 伟哥的应用场景,后面是有后续手段的,分析器不需要太确定。
我: 就是。parsing 的时候,你面对的是语言大海, 你凭什么要求确定,自己难为自己。可是到了 IE 的时候,这个大海就变成了一条小溪,这时候,ontology, lexical semantics, terminology, word embeddings, word-driven rules, 这一切都可以拿来了,因为语言已经聚焦了,完全的 tractable 了,你当然就不怕那种不确定性了。
群里有后学的话,研究生的话,记住,看懂了这个,你做NLP应用,就不会碰得头破血流。否则你就会跟我们老姜一样 千辛万苦 才摸索出革命解放的道路。
白: CFG虽然一锅粥,经典算法仍假定token线性输入而不是图输入。如果图输入是一个ground truth,很多事情会不一样的。
我: 那么查词典呢 exhaustively 地查,所有可能的词全部是起点,其中有些词是hidden的,有些是相交的。这肯定不是线性的起点吧。
邬: Lattice input should be the key. if we are not sure, we should not pretend that we are sure.  just leave the option open.
我: exactly,keep ambiguity untouched,do not jump to conclusions.

雷: 不丢人


白: 图表示如能结合k-best 用同一种线性机制表示,就完美了。
邬: k-best can be extracted from forest.  the problem is of the kbest is it is not that efficient in encoding choices.
雷: 所以 就玩森林。在人的认知中,这森林是静态还是动态存在的?
邬: maybe dynamic. We are always looking for reasonable interpretations, we will pick mostly reasonable path and back track when we have to.
雷: 我也是这么认为的!我们可以有,不过要推导。
白: 保留所有结果和所有回溯可能不是问题,在这同时还要分层才是问题。

我: 所以说分层难在接口。分层第二难是interdependency,哪里分,不管怎么切一刀都感觉不周全。如果赶上了完美主义者,就寸步难行了,然后回到一锅粥来。而一锅粥与软件工程和模块化是背道而驰的。一锅粥搞 NLP 成不了气候,很难深入,不好持续发展(incremental enhancement)。总之,分层才是正道。


【相关】

《新智元笔记:【Google 年度顶级论文】有感》 2015-12-09

中文处理的模块化纠结

【置顶:立委科学网博客NLP博文一览(定期更新版)】




https://blog.sciencenet.cn/blog-362400-942022.html

上一篇:《新智元笔记:【Google 年度顶级论文】有感》
下一篇:主要看气质,次要看发色
收藏 IP: 99.90.71.*| 热度|

3 沈智元 赵凤光 shenlu

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 11:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部