《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:词的幽灵在NLP徘徊】 精选

已有 2620 次阅读 2016-4-19 23:38 |个人分类:立委科普|系统分类:科研笔记|关键词:词,文法词,词汇词| 文法词, 词汇词

白: 字在字面上是什么单位,跟字在语流中是什么单位,可能不是一回事。

我: 语流里没有字啊,只有音节,语素音节。书面文里面没有音节,只有字,语素字。单音节语素 or 汉字语素。二者的统称都是语素(morpheme)。

刘: 单字词和成词语素有区别,还涉及什么是“词”的问题。

我: 单字词就是单语素词。成语肯定是多语素单位了(多为合成词,或短语,或小句)。还是举例说比较好。

白: 机器字符流在没有付诸显示之前,是广义的语流。没付诸显示的字符也是字。

我: 字符串很客观,就是决定于 encoding,汉字字符串,还是 ascii 字符串,或者其他。

白: 所以,在字符传输、字符流线性处理的场景,字符流是语流,字符是字,二者不互斥。

我: 无碍,看怎么解释这个 “语” speech or script,or both

白: both

我: 语流 可以 both,字一般人不认为能 both,不过也无妨了,白老师要说的是什么论点呢?

刘: 在《现汉5》中,是这么处理的:对于单字义项,若有词类标签,视为单字词,反之则为成词语素。

我: 后者语言学叫 bound morpheme,不能独立成词。前者叫 free morpheme 既能单独成词,也不妨碍进入合成词做构词语素。

刘: 没错,实际合不合理不好说,还涉及究竟什么是“词”的认定。

我: 什么是词,掐了好多年了。其实大的方面有共识,细节求同存异,根据应用场景灵活就好了,这是学界。对于工程师和老百姓,最大的误解是分不清词汇的词 vocabulary word 和语法的词 grammar word,我博士论文专门用了一章来梳理这个,因为它在形式化文法中足够重要。语法的词就是 X bar 中的 x,词汇的词就是垃圾。凡是进入词典垃圾箱的都是词汇表中的条目,五花八门,是死记的,强盗绑架给语义和语法 features 和结构的。句法的基础应该是 grammar word,可是我们却不得不从查词典出来的 vocabulary word 开始。这就是一切争吵的总根源。90%+ 的时候无争议,因为词汇词与文法词相重合。可是遇到不一致的时候,就开始掐。语言学家爱大嘴仗。其实到了计算学界,其实也没的可掐,就是系统内部的协调,不足为外人道。

好的NLP设计师,会把词典的数据结构与语法分析过程中倚赖的数据结构同质化,这样二者可以合一(unify),也就可以完全避免关于词的冲突和争吵了。一个大于 grammar word 的单位今天扔进了词典成为 vocabulary word,与昨天没扔进词典,从系统角度,是完全一致的。换句话说,以前是根据规则合成的单位,与今天根据词典强盗绑架出来的单位,可以同质了,那就没有了争吵的基础。大同世界,词民同此凉热。

吕叔湘关于文法词和词汇词有过很精到的论述。

董:

汉语中什么是词?是词本位还是字本位?可以祖祖辈辈、一代又一代争论下去。我说过,我们可以去问问普罗众生,我们来问问一个美学过语法和外语的人,问问他什么是词?翻译、写书算稿费用的单位是字。计算机中文词频统计,有许多不明不白的地方。既然西文什么是词的金标准是空格,United States是MWE,那我们为何不就管“抢劫”也叫MCE?HowNet说到汉语时,只说“字”和“词语”,而不说“词”(除了为了迁就别人)。

我: 字为基础单位在汉语没问题,而且无疑义。不过,根本的问题还是,一个词典不会只收“字”,即单字词,我们还必须收多字词。我们可以 argue 说,多字词在英语对应的是成语词(MWE),也一样进词典,譬如 in fact,并不因为有了空格就不进词典了。

白: “一个叫董事的董事长大后做了董事长”

我: 这样一来,不仅仅根据空格断英语的词(词典成语除外)可以成为清晰无误的标准,根据汉字的编码可以断“词”也是清晰无误的标准。同时,根据词汇表断词其实也是清晰无误的标准,无论中外。这个词汇表在任何一个系统的任何一个给定的时间点,它是静态的,边界清晰的。到了共同体,就人为指定一个静态的词汇表,大家遵守而已。系统内部协调自然仍然是自家事儿,各自为政,不为外人道。

白: 词典的收录标准是耍流氓(无来由捆绑)。

我: 就是耍流氓。既然离不开流氓,那就要给流氓一个从良的机会。

所有这些清晰无误标准的词,都不是 100% 的语言学意义的词 (grammar word)。

工程师一般不管这一套,他们觉得跟语言学缠不清,唯小人与语言学家难缠也。他们就坚持 vocabulary word,把流氓耍到底。本来嘛,词典词就是起点,何苦硬要强加一个语言学家钟爱的所谓语法词,这种 practice 也有道理。

但是,grammar word 或 X bar 中 x 被忽略或无视以后,其隐含的语言学问题,并不是就连同这个语言学的 term 一起烟消云散,它像个幽灵一样在那里徘徊。

最后的情形呢,工程师做的NLP系统,有工程师的路子,简单说,就是瞎凑合,不上升到语言学高度去。

语言学家做的系统呢,还是高明一些,这种高明在多数场合看不出来,但到了有些关节还是能看出功力的不同来。

董老师在 HowNet 中坚持的以汉字语素为 atomic unit 的基础,兼容并蓄很多“多字词”(见 HowNet 的 MWE 多字条目),然后主张在句法正式 parsing 前,有一个合成词的 morphology 中间件,就是一个相当典型的语言学家做系统的设计思路。

我其实也是董老师这一路的 follower,至少思路上是一个阵营的。本来就受多年教诲,背景也同,都是教外语出身。

我: @白老师,光顾说话没看见你这句,还真出来了,也许又是狗屎运,我自己有一点儿surprise:


董:字是长在以汉语为母语的头脑中的,天生的;“词”是科学家植于我们脑中的,就像大师们要把芯片植进来一样。

我: 叫什么关系不大,词汇表是所有系统的基础。每个人的词汇多少不同,记忆不同,年龄不同,但每个人大脑都有这张表。每一个parser都要查词典。这个是全人类共同的。因此词汇词(vocabulary word 或词条 lexical entry)是没有争议的概念。最多是大小之争,那个多属于不毛之争。有争议的是那个语言学的幽灵,语法词。这个概念与语言学理论和模型有关,有充分的争论空间。做系统的人往往不愿介入争论,心里有个自己的模型或框架,做了再说。




【相关】


《科普随笔:汉字和语素》


应该立法禁止切词研究 :=)


 再谈应该立法禁止切词研究


中文处理的迷思之一:切词特有论


《新智元笔记:汉语parsing的合成词痛点》


【新智元笔记:汉语分离词的自动分析】


《新智元笔记:与汉语离合词有关的结构关系》


【沙龙笔记:汉语构词和句法都要用到reduplication机制】


【立委随笔:中文之心,如在吾庐】




【置顶:立委科学网博客NLP博文一览(定期更新版)】 


 《朝华午拾》总目录




http://blog.sciencenet.cn/blog-362400-971312.html

上一篇:【新智元笔记:机器的馅饼(续篇)】
下一篇:【新智元笔记:植树为林自成景(40/n)】

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-21 19:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部