博文

【新智元笔记：中文 parsing 在希望的田野上】精选

已有 6975 次阅读 2016-1-16 06:14 |个人分类:立委科普|系统分类:科普集锦| parsing, 句法分析, 中文, deep, parser

中文毛毛虫，还是蛮多坎坷的。看看我开发的这条毛毛虫模型（i.e. Chinese deep parser），是不是在希望的田野上。拿白老师的妙文做个检验，结果是，有些链子掉了。掉链子是免不了的，关键是什么样的链子，多大程度上影响其应用，毕竟parsing只是中间结果，根本还是为了应用。

初看过去，掉的链子有大约三分之二，是很容易修补的：就是一个力气活，还没完全到位的问题。力气活是时间的函数，这个不怕。假以时间，自然功成，这个有开发更久的英语parser为前例，心中是有数的。还有三分之一的问题，可能真是痛点。痛点仍然可以用patching在应用的时候绕过它去。也就是说，一个如本文展示的鲁棒parser，其缺陷（掉链子）一般并不影响其应用和产品开发，这在我们多年的NLP实践中被反复验证了。研究这些痛点有语言学本身的意义，更多地为与学术同行分享究竟难点在哪里，而不是说，解决或不解决它对使用会有实质的影响。

接着练：

上句掉链子的地方，一个是“是”那里。“当代”是名词修饰语，也挂错了地儿，成了补语(buyu)。同位语也掉了链子，“祖师爷”与“乔老爷”没接上。这些属于力气活，明确知道是哪里的问题，假以时间，会自然而然到位的。可是“谱系划分格局”里面的问题就可能是痛点之一：case by case，总是可以修补，譬如“谱系划分”可以作为词典里的合成词处理，扩大词典即可。但这种很难“预先”补全的半开放集的合成词，一旦不在词典，“划分”作为动词谓语的可能就凸显了，这个做谓语的错误的parse路径就很难避免。

这里，“分析处理”与“机制”所掉的链子，是一个非常简单的错误，“机制”这类词常带动词作为修饰语，这个常见现象系统早已处理了，不过是这个词本身漏缺了本该有的lexical feature，不足为虑。“和......等价”的框式搭配也不是问题，但它在这个句子受到了前面的牵累，掉了链子。前面的问题解决了，这个搭配就自然解决了。所以这个句子的parsing没看到什么特别的痛点。

这个也没痛点。“分析处理”与“机制”的问题同上，是小菜。

这个句子的parsing问题大一些。不过白老师的这个句子本身也确实“拗口”一些。一个非专业人士的human在脑子里要parse这个句子，怕也有类似的困扰。所以虽然掉了一些链子，也还没有到不reasonable的程度。领域独立的自动parsing当然到不了专业人士的分析程度，但与非专业人士的分析能力，距离也不大了。

“正则”这个词条没在词典里面，是一个局部问题，词典不全，专业术语未及收入。其他的问题（“机制”的掉链子）与前同，也是局部的，不足为虑。此句也没有看到什么难以跨越的痛点。

以上这些观察讨论就是想根据具体实际语料的分析，看看中文毛毛虫里面，哪些是痛点，哪些是可以一眼见底的。这样也许对各位会有启发。值得一提的是，这里展示的只是一个parsing结果的“骷髅”，用图形方式表现其概貌。真正的parsing，其数据结构和结果的representation比以上图示要丰富得多。譬如每个词和词组身上所带有的多维信息，可以在下一步为应用提供很多由于结构不足或掉链子而所需要的弥补，这些在一个简单的树形图示中是展示不了的。

如果白老师的文字反映的是中文表达及其结构的典型或偏难的水平（因为所表达的概念和思想其实是有相当深度的，句式也比较复杂），那么一个毫无特别准备的中文parser在结构层面的分析和应对，应该说已经基本靠谱了。换句话说，中文parsing的毛毛虫，其实没有想象的那样高不可攀。它确实比欧洲语言难缠，但也仍然是一条扁平而且并不太长的毛毛虫。其特有的难度可以比喻为这个毛毛虫是一个生了很多毛刺的虫，形体曲线不光滑，形象不美。中文从结构美学来看，的确不如欧洲语言的体型曲线，因此中文的parser也确实有更多的长尾问题使得它较难开发和完善。没有多年的经验积累和语言学素养有时感觉就是个迷宫。然而，宏观上来看，中文结构也没有“丑陋”到影响它的主体分析和应用的程度。

博客上我囿于知识局限（因为不懂DL啊），放出豪言说，即便是DL（Deep Learning），也只能逼近人工编码的毛毛虫，要想超越，我看不到这个可能。我知道说这个话得罪了主流的99%，全领域乃至全社会正围绕深度学习狂欢呢，这个冷水泼得太不合时宜。可是我是有意做这个挑战的。于是有人回说，不出七年，就会看到这小子自打脸。这位后生（从说话的口气猜想，也就是个不知天高地厚初出茅庐的后生）其实蛮nice，死刑以后还给了老夫七年缓刑，正好是七年之痒的尺度，也算是仁至义尽了。反正到时候我等已经是退休年龄，死猪不怕开水烫了：世界是初生牛犊的，只有夕阳才属于我。

但其实，我的挑战不仅仅是为了刺激，也不仅仅是男人十有九吹的德性，而是因为作为攀登者，当你已经看到山顶近在咫尺的时候，在你心里已经没有登顶的疑问了。你有一种一辈子追求终于【美梦成真】的兴奋需要与世界分享。这个曾长期被认为是自然语言理解（NLU）和人工智能（AI）的核心难题的大山，英语已经登顶，汉语即将登顶，这种创造者的欢乐是抑制不住的。既然你已经可以登顶，那你对无论多牛的对手说一句，你永远赶不上我，这个命题是逻辑恒真的。别说七年之痒，就是再多的时间宽限，后来者最多、最多也不过是登顶，平起平坐而已，怎么可能超越呢？除非我们说的不是同一座山。从这个角度，DL牛不牛，已经不相干了。何况，再牛的算法在实践证明自己之前，保留一丝怀疑，与心存敬畏一样，是一种合理的心态（DL在图像和语音处理中已经证明了自己，而text NLU迄今未有突破，尚待证明）。攀登者在登山过程中绕过了那么多荆棘和悬崖，很难想象一个自动学习的算法也恰好可以绕过去。作为同一战壕的对手，我们对DL同行抱着期许，同时也拭目以待吧。

【相关】

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

【新智元笔记：parsing 的鲁棒比精准更重要】