|||
白: 字在字面上是什么单位,跟字在语流中是什么单位,可能不是一回事。
我: 语流里没有字啊,只有音节,语素音节。书面文里面没有音节,只有字,语素字。单音节语素 or 汉字语素。二者的统称都是语素(morpheme)。
刘: 单字词和成词语素有区别,还涉及什么是“词”的问题。
我: 单字词就是单语素词。成语肯定是多语素单位了(多为合成词,或短语,或小句)。还是举例说比较好。
白: 机器字符流在没有付诸显示之前,是广义的语流。没付诸显示的字符也是字。
我: 字符串很客观,就是决定于 encoding,汉字字符串,还是 ascii 字符串,或者其他。
白: 所以,在字符传输、字符流线性处理的场景,字符流是语流,字符是字,二者不互斥。
我: 无碍,看怎么解释这个 “语” speech or script,or both
白: both
我: 语流 可以 both,字一般人不认为能 both,不过也无妨了,白老师要说的是什么论点呢?
刘: 在《现汉5》中,是这么处理的:对于单字义项,若有词类标签,视为单字词,反之则为成词语素。
我: 后者语言学叫 bound morpheme,不能独立成词。前者叫 free morpheme 既能单独成词,也不妨碍进入合成词做构词语素。
刘: 没错,实际合不合理不好说,还涉及究竟什么是“词”的认定。
我: 什么是词,掐了好多年了。其实大的方面有共识,细节求同存异,根据应用场景灵活就好了,这是学界。对于工程师和老百姓,最大的误解是分不清词汇的词 vocabulary word 和语法的词 grammar word,我博士论文专门用了一章来梳理这个,因为它在形式化文法中足够重要。语法的词就是 X bar 中的 x,词汇的词就是垃圾。凡是进入词典垃圾箱的都是词汇表中的条目,五花八门,是死记的,强盗绑架给语义和语法 features 和结构的。句法的基础应该是 grammar word,可是我们却不得不从查词典出来的 vocabulary word 开始。这就是一切争吵的总根源。90%+ 的时候无争议,因为词汇词与文法词相重合。可是遇到不一致的时候,就开始掐。语言学家爱大嘴仗。其实到了计算学界,其实也没的可掐,就是系统内部的协调,不足为外人道。
好的NLP设计师,会把词典的数据结构与语法分析过程中倚赖的数据结构同质化,这样二者可以合一(unify),也就可以完全避免关于词的冲突和争吵了。一个大于 grammar word 的单位今天扔进了词典成为 vocabulary word,与昨天没扔进词典,从系统角度,是完全一致的。换句话说,以前是根据规则合成的单位,与今天根据词典强盗绑架出来的单位,可以同质了,那就没有了争吵的基础。大同世界,词民同此凉热。
吕叔湘关于文法词和词汇词有过很精到的论述。
董:
汉语中什么是词?是词本位还是字本位?可以祖祖辈辈、一代又一代争论下去。我说过,我们可以去问问普罗众生,我们来问问一个美学过语法和外语的人,问问他什么是词?翻译、写书算稿费用的单位是字。计算机中文词频统计,有许多不明不白的地方。既然西文什么是词的金标准是空格,United States是MWE,那我们为何不就管“抢劫”也叫MCE?HowNet说到汉语时,只说“字”和“词语”,而不说“词”(除了为了迁就别人)。
我: 字为基础单位在汉语没问题,而且无疑义。不过,根本的问题还是,一个词典不会只收“字”,即单字词,我们还必须收多字词。我们可以 argue 说,多字词在英语对应的是成语词(MWE),也一样进词典,譬如 in fact,并不因为有了空格就不进词典了。
白: “一个叫董事的董事长大后做了董事长”
我: 这样一来,不仅仅根据空格断英语的词(词典成语除外)可以成为清晰无误的标准,根据汉字的编码可以断“词”也是清晰无误的标准。同时,根据词汇表断词其实也是清晰无误的标准,无论中外。这个词汇表在任何一个系统的任何一个给定的时间点,它是静态的,边界清晰的。到了共同体,就人为指定一个静态的词汇表,大家遵守而已。系统内部协调自然仍然是自家事儿,各自为政,不为外人道。
白: 词典的收录标准是耍流氓(无来由捆绑)。
我: 就是耍流氓。既然离不开流氓,那就要给流氓一个从良的机会。
所有这些清晰无误标准的词,都不是 100% 的语言学意义的词 (grammar word)。
工程师一般不管这一套,他们觉得跟语言学缠不清,唯小人与语言学家难缠也。他们就坚持 vocabulary word,把流氓耍到底。本来嘛,词典词就是起点,何苦硬要强加一个语言学家钟爱的所谓语法词,这种 practice 也有道理。
但是,grammar word 或 X bar 中 x 被忽略或无视以后,其隐含的语言学问题,并不是就连同这个语言学的 term 一起烟消云散,它像个幽灵一样在那里徘徊。
最后的情形呢,工程师做的NLP系统,有工程师的路子,简单说,就是瞎凑合,不上升到语言学高度去。
语言学家做的系统呢,还是高明一些,这种高明在多数场合看不出来,但到了有些关节还是能看出功力的不同来。
董老师在 HowNet 中坚持的以汉字语素为 atomic unit 的基础,兼容并蓄很多“多字词”(见 HowNet 的 MWE 多字条目),然后主张在句法正式 parsing 前,有一个合成词的 morphology 中间件,就是一个相当典型的语言学家做系统的设计思路。
我其实也是董老师这一路的 follower,至少思路上是一个阵营的。本来就受多年教诲,背景也同,都是教外语出身。
我: @白老师,光顾说话没看见你这句,还真出来了,也许又是狗屎运,我自己有一点儿surprise:
董:字是长在以汉语为母语的头脑中的,天生的;“词”是科学家植于我们脑中的,就像大师们要把芯片植进来一样。
我: 叫什么关系不大,词汇表是所有系统的基础。每个人的词汇多少不同,记忆不同,年龄不同,但每个人大脑都有这张表。每一个parser都要查词典。这个是全人类共同的。因此词汇词(vocabulary word 或词条 lexical entry)是没有争议的概念。最多是大小之争,那个多属于不毛之争。有争议的是那个语言学的幽灵,语法词。这个概念与语言学理论和模型有关,有充分的争论空间。做系统的人往往不愿介入争论,心里有个自己的模型或框架,做了再说。
【相关】
【沙龙笔记:汉语构词和句法都要用到reduplication机制】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社