4 汉语分词方法
如何对汉字进行分词,一直以来都是令人困惑的事情。在一个句子中,所有的汉字都是连接在一起的。这不同于拼音那样简单采用空格就可以进行词汇的分割。比如“宇宙大爆炸学说”,用拼音来进行表述就可以拼写成:yuzhou da baozha xueshuo。 其中“宇宙”为一个二字词汇;“大”为虚词;“爆炸”为一个二字词汇;“学说”为一个二字词汇。如果用如同拼音那样的方法,用空格来对词进行分割,则可以表述为:“宇宙 大 爆炸 学说”。虽然这种表述方式好像是清楚了,但是这种表述方式并不会如同拼音文字那样明了,反而让人感到阅读起来有些费劲。这一例子说明,作为象形文字,词组的组合方式有着不同于拼音文字的特点。
常用的汉字大约3000个,如果两个两个汉字进行组合,则可以获得九百万种组合。看起来数量挺多,但由于其中存在很多无意义的词汇,要进行准确的意义表达,还需要更多的组合。
如果增加三字词汇,即一个词汇由三个汉字组成,这样可以使组合数量达到二百七十亿。这么多的词汇组合数量就足够大了,可以满足较准确表达意义的需求。
但是如果采用了奇数个汉字来进行组合获得词汇,则容易给词汇分割造成不便,容易产生歧义。因此在包含了三字词汇的句子中,应采用适当的方法来帮助进行词汇的分割。
另外如有可能,构成新词汇的时候,尽量采用偶数个汉字来完成。其中二字词汇由两个汉字组成,四字词汇则由两个二字词汇组成。其他以此类推。
4.1汉语词汇组合的模型
4.1.1
条件概率
从已有的研究成果来看,用条件概率的方法来处理汉语句子和分词问题是比较有效的。
例如,假设ABCDE五个英文字母对应五个汉字字符,且各汉字之间没有意义上的联系,则一个句子可以表示为:
S=ABCDE
整个句子被表达出来的概率为:P(S)
这里用P(AB)表示在词汇AB被表达出来的概率。P(A)表示汉字A被表达出来的概率。P(C|AB)为条件概率,即在AB被表达出来以后,C被表达出来的概率。
P(S)=P(ABCDE)…………………………………………………………(4-1-1)
用条件概率表示出来为:
P(ABCDE)=P(A)P(B|A)P(C|AB)P(D|ABC)P(E|ABCD)
……………………(4-1-2)
但是由于在一个句子中存在词组,这个关系又可以被简化。假如其中AB、CD分别是二字词汇,而C是虚词,则该句子被表达出来的概率为:
P1(S)=P{[(AB)C](DE)}
=P{[(AB)C](DE) }=P{[(DE)|[(AB)C]]
= P{(DE)|[C|(AB)]} ………………………………………………………(4-1-3)
或者另一种组合的可能,即:
P2(S)= P{ (AB)[C
(DE)]}
=P{[C(DE)]|(AB)}
= P{[(DE)|C]|(AB)}
由于句子的概率是非常小的一个数字,利用对数的方式进行处理,这样就得到所谓的“汉字熵”(注:由于三字词汇容易引起混淆,建议将这个词改为:汉字信熵),这种汉字熵的大小反映出了句子所出现的概率的高低。汉字熵越小意味着该句子出现的概率越高,反之则越低。一个句子的汉字熵的定义可以使用多种形式,这里简单采用对数形式:
H(S)=- logP(S) ………………………………………………………………(4-1-4)
另外,这里所说某个汉字或词汇被“表达出来”,其中涉及到人类思维过程。这一过程是复杂的。它不能够等同于在计算机的语料库中随机选择出某个汉字或词汇的概率。
例如,对于“基因可以控制性状”这句话,假设在一个计算机的语料库中选择“基”字的概率为P1,在“基”子出现以后,选择“因”字的概率为P2,则选择“基因”一词的概率就是P1P2。
不过人类思维过程可以根据句子的整体含义来提高“基因”一词被表达出来的概率。在这一句话中,由于后面的“控制性状”涉及到生命科学的课题,则出现“基”字以后,表达出“因”字的概率就会有很大的提高。由于“基因”也可以被理解为“基础因子”,说明“基”和“因”之间存在较强的关联性,这将显著提高“基因”一词被表达出来的概率。而至于“基础因子”为何会被当作是一个容易表达出来的词汇,则涉及到思维过程中的某种逻辑关系。
当然一个词汇或句子被表达出来的概率,还跟一个人所从事的专业有关。比如一个没有任何专业背景的人士要表达出“基因”这一词汇,概率显然要比从事生命科学专业的人士小很多。
4.1.2
词汇的判断
通过最小熵的方法来判断一个句子中的词汇,是对一个汉字句子进行分词的好方法。
命题:如果一个句子可以被完整地划分成若干个词汇的组合,则句子的汉字熵将为最小。
则如果公式(4-1-3)中的概率P1(S)是最大的,则AB和DE为两个词汇。
又比如“宇宙大爆炸”,该段话被表达出来的最大概率为:
P(宇宙大爆炸)=P{[(宇宙)[大(爆炸)]]}
4.1.3
多于两个汉字的词汇
在汉语句子中,经常会出现多于两个汉字的词汇。这些词汇一部分可以看作是多个二字词汇和单个汉字的组合,习惯上将这些词汇称作“词组”。另一些则是不可分割的。
1.词组和成语
如果为词组,则这些词汇可以被继续分割下去,最终获得多个二字词汇和汉字的组合。
其中比较简单的多字词汇由偶数个汉字组成,它们都可以被继续分割下去直到出现二字词汇为止。
例如“变分微扰理论”就是这样的词汇。它可以被继续分割下去。它被表达出来的概率的计算公式为:
P(变分微扰理论)=P{ (变分) [ (微扰) (理论) ]}
这一类词汇中占比比较大的主要为成语。比如“守株待兔”、“九牛一毛”等。在科技汉语中,汉语成语的使用机会较少。
而由奇数个汉字组成的可分割词汇主要集中于三字词汇。比如“柜员机”、“开发商”、“地铁站”、“慢吞吞”、“急冲冲”等。
2.不可分割的多字词汇
这一类词汇一部分集中在人的姓名等方面。比如维吾尔族名字“巴哈尔古丽”由五个汉字组成。
另外这类词还主要集中于部分药品名称方面。比如“阿司匹林”等。这些词汇也是不可分割的。
不可分割的词汇被表达出来的概率为:
P(巴哈尔古丽)=P[(巴哈尔古丽)]
这类词汇必须保持完整性。除非是单个汉字,任何分割部分被单独表达出来的概率都是非常低的。但是作为一个整体被表达出来的概率就会跃升。
4.2 对句子进行词汇分割
按照上述模型,对于一个完整的句子都可以采用这种最大概率的方法来进行分割,并获得相应的词汇。
由于对一个自然语言句子进行词汇分割涉及到语义问题,且词汇的分割还涉及到该句子的意义以及不同人士的认识能力。如何进行词汇分割就涉及到一个标准问题。以下给出常用的几种无歧义的分词的方法。
4.2.1 自然分割
从4.1.3部分的分析可以看出,除了不可分割的多字词汇以外,所有的汉语词汇都是可以最终被分割成二字词汇或者二字词汇和单个汉字的组合的。
例如这句话:在粒子物理理论中,电磁相互作用和弱相互作用是可以采用弱电相互作用理论来进行统一的。
采用自然分割的方法,分割出来的句子为:
{ 在 { [ (粒子) (物理) ] (理论) } 中 },{ { { (电磁) [ (相互) (作用) ] } 和 { 弱 [ (相互) (作用) ] } } { 是 (可以) { (采用) { (弱电) { [ (相互) (作用) ] (理论) } } } 来 (进行) (统一) 的 } }。
那些只有二字词汇进行组合的词汇是可以达到非常准确的自然分词的要求的。而可分割的四字词汇、六字词汇等,则又可以被分割成多个二字词汇的组合。
比如:“在紧急情况时按下呼叫按钮”
去掉虚词后,变成:“紧急情况按下呼叫按钮”
二者的含义是一样的。两个句子都可以被正确分词解读。后一句话的词汇的划分方法为:
“{ [ (紧急) 情况 ] { (按下) [ 呼叫 (按钮) ] } }”
但如果句子中出现三字词汇,则可能会出现歧义。
比如:
“开发商店面向群众开放”
如果采用自然分割的方法,则该句话可以这样来进行分词:“{[(开发)商店]{[(面向)群众]开放}}”
如果考虑其中包含了一个三字词汇“开发商”,则该句话也可以这样来进行分割:
“{{[(开发商)店面]向(群众)}开放}”
可以做简单的规定来避免这样的歧义。即:
1)如果句子中所有可分割词汇都是偶数个字数的词汇时,可以用,也可以不用虚词来进行词汇的分割。
2)如果其中包含了单个汉字词汇或超过三个字以上的可分割词汇时,则必须在该词汇的或前面或后面增加虚词的方式来进行词汇的分割。
比如上述句子中,如果要表达的句子包含的了三字词汇,则可以这样来添加虚词:
“开发商的店面向群众开放”
而其中中间没有插入虚词的“店面”则被自然分割为一个词汇。
4.2.2通过虚词来进行分割
这些虚词包括:这、之、其、于、以、而、则、乃、若、且、为、是、此、何、虽然、然而、然则、最、再、才、都、就、很、全、把、被、比、从、跟、同、和、因为、因此、了、的、地、得等等。
例如“标准问题”可以更改为“标准的问题”。这样“标准”和“问题”两个词汇就被分割开来了。
又如:“这就是大自然的搬运工”。其中“是”和“的”两个虚词将“大自然”和“搬运工”这两个三字词汇分割开来。
这种方式还可以用来表示一个汉语句子的时态。
4.2.3 空格分割
如同英语当中那样,汉语也可以采用空格来进行词汇的分割。这种方式可以用在音译的外来包含三个以上汉字的词汇的分割。另外我国维吾尔族的人名也可以采用这种方式。
比如:“忙碌了一天的阿娜丝塔西夏终于可以坐车回家了”可以书写为:“忙碌了一天的 阿娜丝塔西夏 终于可以坐车回家了”。
4.2.4 利用英语或拼音进行分割
由于英语以及拼音符号在表述方式上不同于汉语字符,利用英语拼写或汉语拼音来书写某些特定的词汇,也可以起到自然分割句子的作用。
而能够做到这一点,还有一个原因在于,在我国,义务教育阶段英语已经成为了一门必修课。对于从事科技的人士而言,掌握英语更是成为了一项基本能力。因此在汉语句子中适当位置直接使用汉语拼音甚至是英语单词,并不会影响交流的效果。
当然为了避免汉语本身的语法体系规范受到影响,可以规定这些英语和拼音词汇的使用只限定在三字词汇以上的外来词上。主要应用于人名和英文缩写。
英文缩写,如:MP3、DVD等
姓名,如:Bill Clinton
用在一个句子中,则如:“忙碌了一天的Anastasia终于可以坐车回家了”
另外西药的药品名称大部分都采用音译的方式,不过因为这些药品名称在构词方面有非常规范的要求,所以可以结合汉语的特点进行音译。为了能够在句子中对这些药品名称进行自然分割,建议音译过来的药品名称应以二字词汇为单位进行翻译,最后翻译出来的中文名称尽可能保持偶数个汉字。
https://blog.sciencenet.cn/blog-361477-441658.html
上一篇:
《科技汉语语法纲要》——前言下一篇:
楼堂馆所命名问题