还有一个议题,关于儿童语言没有文法的问题,所谓电报体,违反“成人文法”了,说是也一样传达语义。 我当时的笼统回答是:一定是有文法,否则儿童语言与单词的随机发生器如何区别的?
严格说来,这个回答是经不起推敲的,因为语义并非只有经过文法(具体说就是利用文法手段,譬如词序、虚词、词尾等)才能表达。哪怕排除了所有的文法手段,儿童语言的两三个词凑合在一起还是传达了语义的。吃饭饭,饭饭吃,无论怎么说,儿童还是表达了要吃饭的语义。儿童在从自己的词表中找词表达的时候,绝对不是随机寻找的。父母能听懂儿童的没有文法、或文法贫乏的语言,除了词汇的理解外,也还有常识和情境的帮忙,来弥补文法的不足。其所以“饭饭吃”没有误解成是“饭饭”要吃(其他东西),乃是因为常识告诉我们饭饭是吃的宾语,孩子饿了,而不是饭饭饿了。
当然,电报体的儿童语言是贫乏的语言,它只能表达简单意义,所以不能说它与成人语言等价,说它没有文法“一样可以传达意义”是夸大了。肯定是不一样的,贫乏的文法传达的是贫乏的意义,除了吃喝玩的简单需求的表达,儿童做不了哲学家,甚至也表达不了对冰冰的苦恋,对圆圆的向往。
最重要的是,没有文法究竟可以不可以表达语义?
文法的设立,本来是为了表达关系的意义,是用文法的关系来传达董老师所谓逻辑语义,谁做了什么 (who did what to whom when and where,how and why):主语宾语等等
这是人类语言语义的核心,是主干,干上的叶子就是词汇意义。
吕叔湘老先生把文法比喻为项链的串子,词汇就是珍珠,光有珍珠,也可做首饰佩戴到头上,可以传达简单的臭美意义。但是要做成各式项链,千变万化,戴到冰冰玉脖上,去电影节争皇后,就没戏了。没有文法的帮助,光有词汇的堆砌,表达不了复杂一点的意义。
毛: 没有文法,一定程度上也能表达一些语义。 关键字的无序组合也能传达某种意思。
毛老,这就是我下面要说的。没有文法,也可以表达一点词汇以外的关系意义,这是怎么回事呢?
也就是说,几个珍珠随意的堆砌在一起,没有词序,没有语法后缀,也没用功能词(stop words),文法的手段统统不用,其结果是不是一团糟呢?
不一定,这要看谁在堆砌。如果是随机发生器,那就是一团糟(没有语义);如果是人 (包括儿童) 在堆砌,那就不是一团糟,可以传达简单或模糊的语义(模糊性或歧义,在常识或背景知识的帮助下,也可以消除来达成理解)。换句话说,把文法的形式剥离开,从人的口中蹦出就一袋子词(bag of words),是不是一定不 make sense ,就与随机词发生器一样呢?答案是否定的,还是可以 make 一点 sense 的。
有无数的例证。儿童语言是一例;google search 是一例;LSA (Latent Semantic Analysis)也是例证。这些基于 bag of words, 最后也达到了某种粗浅的语义。甚至 LSA 的术语里面就自我标榜自己是语义(semantic)的。
这里面的道理其实很简单,就是所选词汇的语义相洽性。
随机词发生器不能通过图灵测试是因为“随机”。而儿童语言不是随机选取。如果儿童的大脑里面有了500个词汇,他在选择两三个词从口里发出的时候,绝对不是随机选取。
毛: 对。我觉得把词汇比作珍珠不甚贴切,因为没有强调是各不相同的珍珠 。
虽然这几个蹦出来的词,他词序可能不对,也不懂加合适的语法后缀,但是选取的过程本身就隐含了某种语义。
1+1大于2,即便躶体,没穿文法的皮袍。
同理,LSA 可以自动评判中学生的作文答题,虽然它根本就不懂答题,什么文法也不用,谈不上语义和AI,没有任何理解, 但是它却在“正常”的论文答题的判别上,可以达到接近作文老师的判别水平,似乎接近通过图灵测试了。这是因为它的对象是活生生的人,是学生,而学生在组织自己答案的时候,所用的词是相洽的。
学生当然也用了文法,LSA 忽略了其文法的部分,但是最大化了词汇相洽的部分(消除随机噪音)。
毛: 这里还有受者配合的问题。受者会把这些词进行排列组合, 然后选用貌似比较合适的组合。
文法表达语义和词汇相洽表达语义,是有相当的 overlapping 的,当然也有不 overlapping 的部分,到了那一部分 LSA 就傻眼了.
雷: 不能判文法,不就一个瘸子吗
但是在这个特定的应用情景下,这个LSA傻眼的部分只占很小一个比例,因此它被广泛运用在标准化阅读理解的自动判卷上。据说它比平庸的、特易疲倦而走神的人肉阅卷者,降低了随意性,更加客观和consistent,因此更公正。公正对于标准化考试是很重要的,而人在公正方面一般而言并不比机器(程序)占有优势。
机器学习过去30年在NLP上的几乎所有成功,大都是基于这个原理。
coherence,一袋子词之所以走得这么远,都是基于人类语言的语义相洽性(semantic coherence),以及一袋子“词”里面包含了ngrams(ngram是对文法的碎片化模拟,因为ngram内部是运用了词序手段的)。
如果阅卷的LSA,突然遇到一个恶作剧,遇到一个不懂语言的机器人,遇到随机发生器,那么 LSA 的没有灵魂,就立马暴露了。
【相关博文】
【研发笔记:没有语言结构可以解析语义么?浅论 LSA】
【科普笔记:没有语言结构可以解析语义么?(之二)】
【置顶:立委科学网博客NLP博文一览(定期更新版)】
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。 链接地址: https://blog.sciencenet.cn/blog-362400-901871.html
上一篇:
再谈应该立法禁止切词研究 下一篇:
泥沙龙笔记:再聊乔老爷的递归陷阱