[摘要] 本文针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。笔者指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,然后描述了排除词的识别方法,并给出识别的结果,最后在实际的信息检索平台上进行了排除词词库的应用测评。
[关键词] 信息检索 中文信息处理交集型歧义 除词识别 伪歧义
1 引言
中文自动分词是中文信息处理的基础研究内容之一,其中面临的两大难题便是切分歧义和未登录词问题。在今后一段时间里,对切分歧义的相关研究包括:基于Web和专业领域核心词表的分词歧义穷尽式调研,非受限的通用分词歧义表构造、各领域的常用分词歧义表构造等。其中,交集型歧义切分字段又占全部歧义切分字段的绝大多数[1]。对交集型歧义切分的研究主要集中于各种消歧算法的设计上,目前已有的方法主要是基于各种统计和规则进行的[2],如基于词概率[3]、词的Bi-Gram模型[4]、Bayes分类器[5]等方法。同时,研究者还将消歧算法用于构建消歧实例库,在自动分词时调用切分实例或规则进行中文的分词[1][5]。这些方法对提高中文信息检索的质量起到一定的提升作用。
本文将说明在信息检索中存在的一种特殊的准交集型歧义切分现象,即,词语排除关系现象,给出了排除词的定义与排除词在信息检索中的作用。笔者指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,然后描述了排除词的识别方法、排除词词库的建立方法和步骤,最后在实际的信息检索平台上进行了排除词词库的应用测评。
2 排除词及其在信息检索中的作用
2.1 几个相关概念
先给出几个相关的说明如下:
Ω: 中文字符串集合;
S : 中文字符串,S=c1c2,…,cn,即SÎΩ;
Ψ : 分词词典,用于中文分词;
T : 已分词的训练语料。
下面给出与交集型切分歧义相关的基本基本定义。
定义1:交集型歧义切分字段。对于字符串S,S=c1c2,…,cn,SÎΩ,S=c1c2,…,cn为汉字,如果存在整数I1,i2,…,im,j1,j2,…,jm,满足:
(1) SÏΨ;
(2) W1=CI1…Cj1,W2=CI2…CJ2, WM=CIM…CJM,且w1、w2、…、wmÎΨ,且