《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:parsing 的鲁棒比精准更重要】 精选

已有 4655 次阅读 2016-1-24 02:18 |个人分类:立委科普|系统分类:科研笔记| 统计, parsing, 规则, 鲁棒

白: 转一句拗口的翻译:“她想用这样修图的方式,来成为我她认为我想让她成为的样子....”
谭: “她想用整容的方式,来成为她认为我想让她成为的样子....
心: 那个翻译我能读懂,觉得还行,哈哈,人能容错:她想通过修图,成为我心目中的她。
白: 我不是说一定要正确分析,而是说,分析器怎么能不受干扰地猜出原来的意思。如果吃进一个臭子儿,后面全不work了,肯定不爽。要想前面吃进的全错一位还能起作用,卷积的优越性就变得很明显了。差一拍,并没有消失,而只是衰减了一个度,让它们有机会跳过一个“bad token”去结合。后面结合成功了,前面走不下去,后面的结合还可以“拉起来”。

我: 果然我的 parser 这次有点发懵了。


不过,细察也还算是 reasonable, “她”与“认为”之间掉链子了。其他的 local parses 也还能 make sense。actor 就是逻辑主语,under(goer) 就是逻辑宾语

湖: 李老师的parser够强大的啊
我: parser 的目标不是语义求解,而是提供一个靠谱的结构基础。这样后续的理解 抽取 或其他的应用,就可以看到有限的 patterns,而不是无限的线性序列。从这个目标来看 我的中文英文的 parsers 都已经达标了
白: 我对parser的期待更弱一些,只要能把存在相关的词拉近,其余的交给统计和语义就可以了。另一侧面看,对它的健壮性的期待其实更强了。
我: 相当同意。
只是一条 在parser提供了结构基础后 是不是要交给统计才好做应用呢?
我觉得不一定 要看任务。如果是信息抽取 情感分析 这样的任务,统计“或”语义。
白: “和”太强了
我: 在 parse 上编码 subtree patterns 非常有效 很难说统计方法可以做得更好。事实上我相信统计做不了人工编码的质量。但是做挖掘 做分类 做聚类,那就非统计不行了。
白: 统计不排除人工编码作为监督输入,无非就是有例外没例外的差别。
北京话什么词语后面可以儿化,上海话什么“大”读成“du”,可能是人工编码的比较复杂的逻辑组合,用人工编码基础上的神经网络之类可能会更好。
完全放羊的统计不一定好。
我: 另一个角度是看处理单位。处理单位大于等于段落的 统计较好,处理单位小于等于句子的 专家手工编码更直接有效。
白: 规则做加法,统计做减法,排除伪歧义。
我: 白老师的加法减法论 妙啊
白: 伟哥,你那儿几点了啊……
我: 七点19 pm
伪歧义只是特定方法的问题,不是普遍性挑战。有一条也很赞同白老师,就是可以探索手工编码与统计的更“亲密”的合作模式。让手工编码提供 local 的句法或语义的单元,然后让统计去接手。这里的单元指的是比 ngram 高级的语言片段的分析。这条路子是可能发挥各自的长处的,因为搞定 local 的语言片段,对于编码来说,易于反掌。
白: 滑动窗口和组块,可以在卷积的旗帜下统一起来。
我: 还有一条就是,编码提供模式,能固定的全给它固定住,譬如小词,譬如词序,留几个空位让统计去填。
白: 这就是波粒二象性!
我: 也就是玩平衡的艺术交给统计,有句法踪迹的交给人工。
白: 好孩子(句法规范的)可以在规则的快车道上大开绿灯,坏孩子(句法不规范但能猜到意思的)让统计来兜底。
我: 不能亲密的原因不仅仅是“宗教”的原因,还有两栖人才的缺失。我们这一行特别奇怪,真正能两边都大拿的几乎没见过。最好的情形也不过是统计的人对语言学兴趣浓厚,或者语言学家懂一些统计原理,相对可以有一点相互欣赏的可能。
白: 就像今天早上多了那个“我”的例句

我: 加上那个没有来路的“我”以后,测试一下 parser 的鲁棒性:


基本上差距不大,掉链子的地方仍然是个别的,基本的 local parses 并不受影响
鲁棒性在实用系统中比分析的精准也许更为重要。
如果一个地儿错位了,造成满盘皆输,那样的 parser 没法用。掉链子不可怕。掉链子对于多数任务的最终影响很小。原因在,几乎所有的任务都是 subtree pattern based,没有一个任务是要求句子必须有完整的 tree, 因为句子是千变万化的,完整的 tree 不是 pattern 的对象,pattern 必然是 local 的 subtree,by definition。掉链子对最终结果的质量影响仅仅发生在,当一个面相任务的 local subtree pattern 刚好需要跨过那个掉链子的地方的时候。这种碰撞的几率不大。如果在掉链子的地方做一些 patching,然后再做 subtree pattern 的时候,又心存包容(尽量让 pattern 变得 robust)那么,这种掉链子对质量的影响就可以降低到最低点。没有一个人做出来的 parser 可以完全不掉链子,只要掉链子被控制在一定的范围内,parser 作为 NLP 任务的引擎核武器的功能,其实是不受影响的。
白: “用整容的方式”有歧义。整容作为一种方式 vs. 整容的具体方式。

我:“用整容的方式”的歧义,如果需要区分,也是在句法结构之上的某个层面。



【相关】

【新智元:中文 parsing 在希望的田野上】 

【围脖:做 parsing 还是要靠语言学家,机器学习不给力】 

《新智元:有了deep parsing,信息抽取就是个玩儿》

【立委科普:语法结构树之美(之二)】


【征文参赛:美梦成真】


泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器


【置顶:立委科学网博客NLP博文一览(定期更新版)】  





https://blog.sciencenet.cn/blog-362400-952141.html

上一篇:围脖:这次美国总统大选很操蛋,两边都找不到像样的政治家
下一篇:【新智元笔记:关于汉语介词的兼语句型,兼论POS】
收藏 IP: 192.168.0.*| 热度|

3 李竞 杨正瓴 黄永义

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 21:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部