博文

【李白67：带结构变量的词驱动模式注定是有限的】

已有 3883 次阅读 2017-8-13 10:01 |个人分类:立委科普|系统分类:科研笔记| 模式, 自动分析, 词驱动

白:
（1）小林差点哭了。（2）小林差点没哭。（3）谁说小林哭了？（4）谁说小林没哭？（5）没有人说小林哭。（6）没有人说小林没哭。

小林哭了？没哭？小学一年级暑假作业

李:
从词驱动模式而言这些都是小菜谈不上挑战。其实小学生语文出此题背后也是因为这些模式很简单小学生下意识记住了模式：

差点没 v == 差点 v 了
谁说 S v 了 == 谁说 S 没 v
谁说 == 没有人说
没有人说 s v == s （应该）没 v

差点 v 了 == 》【Did not v but almost did】没有人说 s v（negative）== 大家都说 s v 了

没有人说 s v（negative）== 大家都说 s v 了
==》s （应该是）v 了【舆论推测】

That's all. These types of oral Chinese patterns look tricky but they are short and finite. Very easy to memorize and highly tractable. However, they are a challenge to key word systems. Not very sure if they are a challenge to an end to end deep learning system ......

类似的现象还有：究竟好还是不好？

谁说iPod好。【不好】
谁说iPod不好？【好】
谁不说iPod好。【好】
谁不说iPod不好？【不好】

没有谁说iPod好。【不好】
没有谁说iPod不好。【好】
没有谁不说iPod好。【好】

（from 科研笔记：究竟好还是不好）

梁:

@wei 我也挺喜欢这种短语pattern, 中间夹着 Vp 或 a 之类。

李:
词驱动patterns是在“成语”的延长线上，加一些小结构的变量而已。这类现象适合词驱动的专家词典。小菜。而经典的关键词系统一看就傻了，stop words 一去除，就是一包烂词一锅糊粥，a bag of shitty words for BOW systems，但估计拦不倒神经系统？Identifying and parsing these patterns are a piece of cake. The corresponding semantic representation is a little tricky, but as we all know, the semantic representation is output and is only a system internal toy for NLPers. As long as we identify the pattern, however, we choose to represent it depends on the design of semantic compositionality and on the system internal coordination of such representation design and its semantic grounding to NLP applications. The input matching pattern is key. The output representation is whatever is good for the purpose.

有谁可以确定性地回答这个问题？对于这类简单的 patterns（虽然涉及到一点语言结构但没有long distance挑战），现如今的深度神经是不是通过隐藏层、word embedding 等，可以轻易捕捉呢？能够捕捉，对于一个强大的神经是预期中的。倘若很难捕捉那就很尴尬了。

白:
用没有variable的词典定义绑架，剩下用什么方法都没有太多悬念。真正成问题的，一是“已定义”相对于“未定义”的高原效应问题，一是从“无变元”到“有变元”带来的泛化问题。

李:
什么叫 “没有 variable 的词典定义绑架”？那不就是成语或合成词或ngram黑箱子吗？
高原效应是什么效应？

白:
plateau：已定义效果特好，未定义效果骤降。词典定义，不必然连续。可以不连续

李:
无变元到有变元是儿童学习语言的过程，道理上也是机器通过线性数据训练平面结构的过程，不管这种结构是symbolically显性表达还是某种方式隐藏地表达。

可以不连续的词典定义白老师举例说明一下？已定义我的理解是大脑或系统已经形成模式了，未定义是尚未形成模式还没学会。如果是带变量的词驱动模式注定是有限的。小小的人类大脑都可以学会，就断断不构成数据科学家及其电脑的挑战。做一条少一条，“而山不加增何苦而不平”？何况数据驱动的学习或制作，总是从常见模式开始，罕见的长尾最后对付。

总而言之言而总之，不是挑战，更像是玩儿。谈笑间灰飞烟灭的语言学游戏罢。所有这一切的信心来源于两点：一是人脑容量小得可笑，二是结构让无限变成有限。从结构看语言 NLP想不乐观都找不到理由。

很多所谓的 #自然语言太难了#，都经不起琢磨。多数所谓 NLP 难点，仔细一瞧，或者是 piece of cake，或者是人类自己根本就没有标准或答案的。后者是强“机”所难。

白:
静态和动态看到不同问题。捆绑定义，最没技术含量，最有所谓惊艳表现。根本就是给外行说的。问题都在捆绑定义之外。

李:
就这类问题来说，本身就很简单，老妪能解，要什么含量呢？要的就是work ：if the work works then it is all fine. 我们以前常举的例子是：

The iPhone has never been good.
The iPhone has never been this good.

白:
动态看，从未定义到已定义的过程，从无变元到有变元的过程如何自动化，如何偷懒，才是真正有意义的。这里谁都能work的事儿，不说也罢。

李:
对于有限的对象这个自动化过程没有多少实践意义。

白:
实践意义要实践的人最终判定。给实践添砖加瓦的人还是虚心点好。

李：
如果证明了所列举的现象是无限的，才有自动化的说法。至少我们现在谈论的现象它不是无限的，而是相当有限的模式。不过是说个大白话而已，这里没有虚心的理由。当然肯定还有其他现象性质不同，到时候碰壁了再虚心不迟。

抽象地说，一切学习，归根结底是泛化的自动化问题，因此研究这个问题才是高大上才有真正的突破。但具体到现象就不总是这种高级泛化的问题。也有低级泛化，譬如带变量的模式。技术含量属于不高不低，这个变量牵涉到词典与句法的接口，不是随便一个NLP新手就可以搞定的。因此有技术门槛，但的确也不是火箭技术，所以也可以说没太多的技术含量。

白:
就像某翻译系统，play piano 能翻译成弹钢琴，play mandolin 就不会翻成弹曼陀林。这里弹拨、键盘、吹管、拉弦乐器的标记体系是自动化的关键，一个一个组合去捆绑是傻瓜做法。乐器虽不是无限的，但多到一定程度就值得自动化。柳琴、琵琶、月琴、中阮、大阮、古筝、古琴，冬不拉、热瓦普、琉特、齐特、吉他、竖琴 ......

李:
subcat总是要做的。从 piano 泛化到包括长尾的曼陀林，的确是一个有意义的课题。word embedding 也好， HowNet 加大数据也好，都是要捕捉或搞定 nodes 的边界条件。自然语言说穿了不外是图谱中的 arcs 和 node。两路泛化现在看来，arcs 的泛化更容易搞定，nodes 泥淖一点。当然二者还有一些互补和 overlapping，戏不够词来凑。

白:
隐形标记体系，针对封闭的词典。不寄希望于个体词汇的低概率统计分布兑现。这就是我说的subcat embedding，

李:
subcat 为基础的泛化，当然是更高级的泛化。它与 word 为基础的泛化构成一个 hierarchy，就好比词驱动结构与抽象文法结构构成 hierarchy 类似。前者是做工 nodes，后者是做工 arcs。这样来看自然语言可能就比较清晰了。当然深究下去这两个泛化还有很多交错和结合的变种。但万变不离其宗词汇与结构总是语言的基石。subcat 泛化比较tricky。也许 HowNet 结合大数据也是一途：拿 hownet 做 subcat 的种子。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-1070872.html

上一篇：【李白66：“青春期父母指南”的语义计算】
下一篇：【李白之68：再扯NLP萝卜填坑】