博文

【新智元笔记：parsing 的鲁棒比精准更重要】精选

已有 4655 次阅读 2016-1-24 02:18 |个人分类:立委科普|系统分类:科研笔记| 统计, parsing, 规则, 鲁棒

白: 转一句拗口的翻译：“她想用这样修图的方式，来成为我她认为我想让她成为的样子....”

谭: “她想用整容的方式，来成为她认为我想让她成为的样子....”

心: 那个翻译我能读懂，觉得还行，哈哈，人能容错：她想通过修图，成为我心目中的她。

白: 我不是说一定要正确分析，而是说，分析器怎么能不受干扰地猜出原来的意思。如果吃进一个臭子儿，后面全不work了，肯定不爽。要想前面吃进的全错一位还能起作用，卷积的优越性就变得很明显了。差一拍，并没有消失，而只是衰减了一个度，让它们有机会跳过一个“bad token”去结合。后面结合成功了，前面走不下去，后面的结合还可以“拉起来”。

我: 果然我的 parser 这次有点发懵了。

不过，细察也还算是 reasonable, “她”与“认为”之间掉链子了。其他的 local parses 也还能 make sense。actor 就是逻辑主语，under（goer）就是逻辑宾语

湖: 李老师的parser够强大的啊

我: parser 的目标不是语义求解，而是提供一个靠谱的结构基础。这样后续的理解抽取或其他的应用，就可以看到有限的 patterns，而不是无限的线性序列。从这个目标来看我的中文英文的 parsers 都已经达标了

白: 我对parser的期待更弱一些，只要能把存在相关的词拉近，其余的交给统计和语义就可以了。另一侧面看，对它的健壮性的期待其实更强了。

我: 相当同意。

只是一条在parser提供了结构基础后是不是要交给统计才好做应用呢？

我觉得不一定要看任务。如果是信息抽取情感分析这样的任务，统计“或”语义。

白: “和”太强了

我: 在 parse 上编码 subtree patterns 非常有效很难说统计方法可以做得更好。事实上我相信统计做不了人工编码的质量。但是做挖掘做分类做聚类，那就非统计不行了。

白: 统计不排除人工编码作为监督输入，无非就是有例外没例外的差别。

北京话什么词语后面可以儿化，上海话什么“大”读成“du”，可能是人工编码的比较复杂的逻辑组合，用人工编码基础上的神经网络之类可能会更好。

完全放羊的统计不一定好。

我: 另一个角度是看处理单位。处理单位大于等于段落的统计较好，处理单位小于等于句子的专家手工编码更直接有效。

白: 规则做加法，统计做减法，排除伪歧义。

我: 白老师的加法减法论妙啊

白: 伟哥，你那儿几点了啊……

我: 七点19 pm

伪歧义只是特定方法的问题，不是普遍性挑战。有一条也很赞同白老师，就是可以探索手工编码与统计的更“亲密”的合作模式。让手工编码提供 local 的句法或语义的单元，然后让统计去接手。这里的单元指的是比 ngram 高级的语言片段的分析。这条路子是可能发挥各自的长处的，因为搞定 local 的语言片段，对于编码来说，易于反掌。

白: 滑动窗口和组块，可以在卷积的旗帜下统一起来。

我: 还有一条就是，编码提供模式，能固定的全给它固定住，譬如小词，譬如词序，留几个空位让统计去填。

白: 这就是波粒二象性！

我: 也就是玩平衡的艺术交给统计，有句法踪迹的交给人工。

白: 好孩子（句法规范的）可以在规则的快车道上大开绿灯，坏孩子（句法不规范但能猜到意思的）让统计来兜底。

我: 不能亲密的原因不仅仅是“宗教”的原因，还有两栖人才的缺失。我们这一行特别奇怪，真正能两边都大拿的几乎没见过。最好的情形也不过是统计的人对语言学兴趣浓厚，或者语言学家懂一些统计原理，相对可以有一点相互欣赏的可能。

白: 就像今天早上多了那个“我”的例句

我: 加上那个没有来路的“我”以后，测试一下 parser 的鲁棒性：

基本上差距不大，掉链子的地方仍然是个别的，基本的 local parses 并不受影响

鲁棒性在实用系统中比分析的精准也许更为重要。

如果一个地儿错位了，造成满盘皆输，那样的 parser 没法用。掉链子不可怕。掉链子对于多数任务的最终影响很小。原因在，几乎所有的任务都是 subtree pattern based，没有一个任务是要求句子必须有完整的 tree, 因为句子是千变万化的，完整的 tree 不是 pattern 的对象，pattern 必然是 local 的 subtree，by definition。掉链子对最终结果的质量影响仅仅发生在，当一个面相任务的 local subtree pattern 刚好需要跨过那个掉链子的地方的时候。这种碰撞的几率不大。如果在掉链子的地方做一些 patching，然后再做 subtree pattern 的时候，又心存包容（尽量让 pattern 变得 robust）那么，这种掉链子对质量的影响就可以降低到最低点。没有一个人做出来的 parser 可以完全不掉链子，只要掉链子被控制在一定的范围内，parser 作为 NLP 任务的引擎核武器的功能，其实是不受影响的。

白: “用整容的方式”有歧义。整容作为一种方式 vs. 整容的具体方式。

我：“用整容的方式”的歧义，如果需要区分，也是在句法结构之上的某个层面。

【相关】

【新智元：中文 parsing 在希望的田野上】