博文

泥沙龙笔记：儿童语言没有文法的问题精选

已有 5898 次阅读 2015-7-1 07:36 |个人分类:立委科普|系统分类:教学心得| NLP, 文法, LSA, 儿童语言

还有一个议题，关于儿童语言没有文法的问题，所谓电报体，违反“成人文法”了，说是也一样传达语义。

我当时的笼统回答是：一定是有文法，否则儿童语言与单词的随机发生器如何区别的？

严格说来，这个回答是经不起推敲的，因为语义并非只有经过文法（具体说就是利用文法手段，譬如词序、虚词、词尾等）才能表达。哪怕排除了所有的文法手段，儿童语言的两三个词凑合在一起还是传达了语义的。吃饭饭，饭饭吃，无论怎么说，儿童还是表达了要吃饭的语义。儿童在从自己的词表中找词表达的时候，绝对不是随机寻找的。父母能听懂儿童的没有文法、或文法贫乏的语言，除了词汇的理解外，也还有常识和情境的帮忙，来弥补文法的不足。其所以“饭饭吃”没有误解成是“饭饭”要吃（其他东西），乃是因为常识告诉我们饭饭是吃的宾语，孩子饿了，而不是饭饭饿了。

当然，电报体的儿童语言是贫乏的语言，它只能表达简单意义，所以不能说它与成人语言等价，说它没有文法“一样可以传达意义”是夸大了。肯定是不一样的，贫乏的文法传达的是贫乏的意义，除了吃喝玩的简单需求的表达，儿童做不了哲学家，甚至也表达不了对冰冰的苦恋，对圆圆的向往。

最重要的是，没有文法究竟可以不可以表达语义？

文法的设立，本来是为了表达关系的意义，是用文法的关系来传达董老师所谓逻辑语义，谁做了什么（who did what to whom when and where，how and why）：主语宾语等等

这是人类语言语义的核心，是主干，干上的叶子就是词汇意义。

吕叔湘老先生把文法比喻为项链的串子，词汇就是珍珠，光有珍珠，也可做首饰佩戴到头上，可以传达简单的臭美意义。但是要做成各式项链，千变万化，戴到冰冰玉脖上，去电影节争皇后，就没戏了。没有文法的帮助，光有词汇的堆砌，表达不了复杂一点的意义。

毛: 没有文法，一定程度上也能表达一些语义。关键字的无序组合也能传达某种意思。

毛老，这就是我下面要说的。没有文法，也可以表达一点词汇以外的关系意义，这是怎么回事呢？

也就是说，几个珍珠随意的堆砌在一起，没有词序，没有语法后缀，也没用功能词（stop words），文法的手段统统不用，其结果是不是一团糟呢？

不一定，这要看谁在堆砌。如果是随机发生器，那就是一团糟（没有语义）；如果是人 (包括儿童) 在堆砌，那就不是一团糟，可以传达简单或模糊的语义（模糊性或歧义，在常识或背景知识的帮助下，也可以消除来达成理解）。换句话说，把文法的形式剥离开，从人的口中蹦出就一袋子词（bag of words），是不是一定不 make sense ，就与随机词发生器一样呢？答案是否定的，还是可以 make 一点 sense 的。

毛: 好，我听着。@wei

有无数的例证。儿童语言是一例；google search 是一例；LSA （Latent Semantic Analysis）也是例证。这些基于 bag of words，最后也达到了某种粗浅的语义。甚至 LSA 的术语里面就自我标榜自己是语义（semantic）的。

这里面的道理其实很简单，就是所选词汇的语义相洽性。

随机词发生器不能通过图灵测试是因为“随机”。而儿童语言不是随机选取。如果儿童的大脑里面有了500个词汇，他在选择两三个词从口里发出的时候，绝对不是随机选取。

毛: 对。我觉得把词汇比作珍珠不甚贴切，因为没有强调是各不相同的珍珠。

虽然这几个蹦出来的词，他词序可能不对，也不懂加合适的语法后缀，但是选取的过程本身就隐含了某种语义。

1+1大于2，即便躶体，没穿文法的皮袍。

同理，LSA 可以自动评判中学生的作文答题，虽然它根本就不懂答题，什么文法也不用，谈不上语义和AI，没有任何理解，但是它却在“正常”的论文答题的判别上，可以达到接近作文老师的判别水平，似乎接近通过图灵测试了。这是因为它的对象是活生生的人，是学生，而学生在组织自己答案的时候，所用的词是相洽的。

学生当然也用了文法，LSA 忽略了其文法的部分，但是最大化了词汇相洽的部分（消除随机噪音）。

毛: 这里还有受者配合的问题。受者会把这些词进行排列组合，然后选用貌似比较合适的组合。

文法表达语义和词汇相洽表达语义，是有相当的 overlapping 的，当然也有不 overlapping 的部分，到了那一部分 LSA 就傻眼了.

雷: 不能判文法，不就一个瘸子吗

但是在这个特定的应用情景下，这个LSA傻眼的部分只占很小一个比例，因此它被广泛运用在标准化阅读理解的自动判卷上。据说它比平庸的、特易疲倦而走神的人肉阅卷者，降低了随意性，更加客观和consistent，因此更公正。公正对于标准化考试是很重要的，而人在公正方面一般而言并不比机器（程序）占有优势。

机器学习过去30年在NLP上的几乎所有成功，大都是基于这个原理。

雷: 什么是自洽性，英文是什么？

coherence，一袋子词之所以走得这么远，都是基于人类语言的语义相洽性（semantic coherence），以及一袋子“词”里面包含了ngrams（ngram是对文法的碎片化模拟，因为ngram内部是运用了词序手段的）。

如果阅卷的LSA，突然遇到一个恶作剧，遇到一个不懂语言的机器人，遇到随机发生器，那么 LSA 的没有灵魂，就立马暴露了。

【相关博文】

【研发笔记：没有语言结构可以解析语义么？浅论 LSA】

【科普笔记：没有语言结构可以解析语义么？（之二）】

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-901871.html

上一篇：再谈应该立法禁止切词研究
下一篇：泥沙龙笔记：再聊乔老爷的递归陷阱

收藏 IP: 192.168.0.*| 热度|

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

泥沙龙笔记：儿童语言没有文法的问题精选

当前推荐数：10 推荐人：刘全慧 吕喆 武夷山 陈筝 杨正瓴 黄永义 魏焱明 陆泽橼 bobgogogo bridgeneer

该博文允许注册用户评论请点击登录评论 (17 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

泥沙龙笔记：儿童语言没有文法的问题 精选

当前推荐数：10 推荐人： 刘全慧 吕喆 武夷山 陈筝 杨正瓴 黄永义 魏焱明 陆泽橼 bobgogogo bridgeneer

该博文允许注册用户评论 请点击登录 评论 (17 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

泥沙龙笔记：儿童语言没有文法的问题精选

当前推荐数：10 推荐人：刘全慧吕喆武夷山陈筝杨正瓴黄永义魏焱明陆泽橼 bobgogogo bridgeneer

该博文允许注册用户评论请点击登录评论 (17 个评论)