博文

【李白之37：分层与一锅煮的parsing机制探讨】

已有 2941 次阅读 2017-4-12 16:33 |个人分类:立委科普|系统分类:科普集锦| parsing, 句法分析, 休眠唤醒

白:
话说，分层针对的是token间的二元关系，而token本身是不长眼睛的。所以一个token理论上可以喂给多层，此其一。随着各层的动态演化，可能会临时生出之前扫描不到的新的高优先级关系，甚至这种关系会把之前已经填好坑的萝卜再连根拔起。此其二。这样，虽然还可保持“线速”，但极端场景可能就是2N，而不是N。kick off的机制是一定要的。数理不一定等距，反而可以更细微地反映不等距。

李:
白老师今天的话起了个头，可以展开看看。其一其二说了分层面对的问题。但不足以否定分层。另外，２Ｎ有啥关系？可忽略不计吧。

分层多层是法宝。法宝到我其实不应该去宣扬，更不要去ａｒｇｕｅ，自个儿得了好处一边偷着乐不好吗。粗话说，属于嘴欠。唯一的　ｃａｔｃｈ　是，并不是承认或向往多层好处的人，都可以几刀就切干净。这时候语言学经验开始发力。

kick off机制点解？

白:
所谓kick off，可参见一排单摆，最后一个进来，第一个出去，其他纹丝不动。
“他死去多年的战友”“他死去多年的消息”前者启动kick off，后者不启动。“他不务正业、整天游手好闲的发小”；“他生前被人深深误解、死后被人广为称道的施政方针”。根本就不用勉强一定要看多远，远到不能错。先将错就错，占住坑再说，对的来了把我踢走就是了。可万一没错呢？再厉害的播音员也有buffer overflow的时候。“他不务正业、整天游手好闲的毛病”；“他生前被人深深误解、死后被人广为称道的传奇故事”。有kick off兜底，再长也不怕了。短的如“王冕死了父亲”也照用不误。当然，稍微加点条件就少一次折腾。lookahead什么的。

李:
嗯。
听上去就是休眠唤醒之一种。

白:
不是词法级，而是句法级。不预设无限大窗口，当前有限窗口里优先级最高的先处理掉。等到动态过程中优先级更高的来到，已处理的结果可以废掉。废掉是一对一的，不是全局性的redo。被set free的成分重新等待新的结合机会。具体到一个一个pair ，语言学知识的重要性毋庸置疑。但是local犯错误必须global来纠正的情况永远是存在的。这个时候，仍然寄希望于语言学知识来纠正，一定会按下葫芦起来瓢，而某种语言学无关的算法上的安排才是真正的出路。

李:
感觉主要还是语言学，不过是远距离的结构起作用罢了。句法级的休眠唤醒说到底就是修正local的关系（注意，local指的是短距离，不等于浅层关系，它可以在浅层，也可以在深层，可以是结构图的任意局部），对应的自然是局部修正哪里化脓哪里上紫药水。所谓“推倒重来”就是除旧布新，最多是个 subtree，不会是全局革命。全局推倒重来不 make sense，多层分层的路线决定了每一层绝大多数的关系是对的要远距离唤醒和改正的必定是少数。如果不是大多数是对的这只能说明层次的刀切错了是语言学模块化的失败。模块化照顾的是步步为营多数受益的依存关系。在多层看来是一致的。

白:
语言学对与错都是数据的问题，不需要涉及算法。远距离唤醒需要的是算法而不是数据。算法不接受多数暴政。如果不想错得太难看，即使是小概率也要兜底。

李:
所谓远距离不过是顶层或接近顶层而已。到了接近顶层，再远距离都变成 local tree. 　天涯若比邻。

白:
分层和单向是两个概念，单向是不许后悔。分层不排斥后悔。

李:
对呀。
很多问题源自单层算法。多层以后问题就没了。每一层的算法不必变，最多是增加一些 config而已允许以可控的不同方式去处置。那是文法的running，不是文法的编译问题。

白:
如果在被语言学知识选中的pair之间加一些虚拟运算符，这个问题就像乘法比加法优先一样自然。

李:
哈。
怎么玩都可以。

白:
分层和算符优先是多么等价啊……

李:
分层更厉害。厉害就鲁莽。好在可以悔棋。因此多层与休眠唤醒是天然合作的。维持了线性，也维持了模块化和可维护。

白:
固定长度滑动窗口的算符优先，也需要悔棋配合。这是同样道理。而悔棋是一个算法问题，独立于具体的语言学知识。语言学知识都体现在算符里了。优先窗口计算算术表达式，也是会错的。窗口之外，是加号还是乘号，结果完全不同。有限窗口，加法乘法乘幂，这是领域知识。确定了谁比谁优先，这就是一个算法问题。限定了窗口有限，改错同样是一个算法问题。不是领域知识问题。不同点是，算术表达式中的算符是输入的一部分，而作为分析器输入的token序列中，没有算符。算符是local进行前后条件匹配后动态虚拟插入的。所以，对输入的扫描遍数不一样，极端情况下就是“两遍”。昨天说的2N就是这么来的。把语言学知识隐藏在算符后面，算法就可以一锅煮了。

李:
嘿嘿
算法机制化。不是要在算法上动手术，而是在算法的操作层面研究灵活性。

白:
所以，分层和算符优先真的是互通表里的。一锅煮不是错，一锅煮背后没有优先机制才是错。

李:
一锅煮要是等于单层就难以恭维。

白:
优先机制中体现领域知识也是应有之义。有优先级的一锅煮等于变相分层。

李:
还是放不开，不够伸展。

白:
规则都没有了怎么会放不开

李:
而且优先级弄多了也麻烦，跟密电码似的，加强了规则之间的纠缠。

白:
跟层一样多就够了，又不是人去读

李:
规则与规则适度分开是很讲分寸的

白:
不在一个优先级的pair不会纠缠。我们只看见pair，看不见规则。

李:
不是人去读？总得人调试呀。没有可读性无法调试和维护。除非是神经。

白:
人调试，只需要调试一个优先级总表。语言学家完全看得懂，完全是数据。不是程序也不是算法，把算符搬来搬去而已。算符可以理解为特定类别的pair标签，比如<N+, N>这种pair，可能有几种，分别是什么标签，什么优先级，如此而已。单音节形容词修饰的定中结构、区别词修饰的定中结构、多音节形容词修饰的定中结构、的字结构修饰的定中结构、数量短语修饰的定中结构、核心角色介词（把、被、拿、将）构成的介词短语等等。它们的优先级不尽相同。有了这些做后盾，根本就不怕一锅煮。该先做的不会后做，因为窗口所限先做做错了的，随着窗口的滑动还会被踢掉，而且踢是点对点的，不会伤及无辜。语言学家完全不用关注kick off的实现，如果发生了kick off，语言学家是完全看得懂的。

总结一下观点：1、语言学知识用在局部；2、语言学知识转化为pair优先级、可作为虚拟算符纳入算符优先机制一锅煮；3、在窗口受限场景，可以引入kick off机制，支持句法级的休眠唤醒；4、因为输入token序列并不包含虚拟算符，虚拟算符的插入在极端情况下需要多浪费一遍扫描。

李:
虚拟算符是什么东东？

白:
可以理解为给一个二元关系在语言学上定性的标签。二元关系的两端token即使一样，语言学标签仍然可能不同，需要根据优先级区分和前后条件判据的需要加以细分。

李:
句法关系细类。

白:
我的大类只有填坑、合并、修饰、升格、降格，细分是必须的。但句法层面仅限于“控制优先顺序所必须”，绝不扩大化。五大类中，二元关系只有前三类，后两类只涉及自己，
一元。

所谓“绝不扩大化”，比如逻辑主谓，是不需要分的。但是萝卜来自坑的左方还是右方，这个区分可以有。因为，右方萝卜填谓词的坑，优先级高于左方。

白:
一个算术表达式，有加减，有乘除，有乘幂，还有括号。我们怎么确定对表达式的解析是一锅煮的还是分层的？在设定优先级的时候，事实上已经分层了，叫不叫分层纯属个人爱好。

李:
这个比喻贴切。

【相关】

【语义计算：李白对话录系列】

【立委科普：结构歧义的休眠唤醒演义】

中文处理