|||
章成志1, 2
1(南京理工大学信息管理系 南京 210094)
2(中国科学技术信息研究所 北京 100038)
[摘 要] 本文对自动标引的研究进行总结与回顾。首先对标引对象进行界定;然后分析自动标引研究的三个阶段、并给出50年研究历程中的代表性方法;接着详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题、并对今后的自动标引研究和应用方向进行展望。
[关键词] 自动标引;抽词标引;赋词标引
[分类号] TP391;G252
Review and Prospect of Automatic Indexing Research
Zhang Chengzhi1, 2
1(Department of Information Management,
2(Institute of Scientific & Technical Information of
[Abstract] The review of the automatic indexing research is presented. Firstly, the indexing object in the automatic indexing is proposed. Then, three phases and the representative methods of the automatic indexing in the past 50 years are described respectively. The road map of automatic indexing research is explained in detail. The classification of the keyword extraction and keyword assignment methods is put forward respectively. Finally, the issues in the automatic indexing are summarized, and the future research topics and application related to the automatic indexing are discussed.
[Keywords] Automatic Indexing, Keyword extraction, Keyword Assignment
自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术[1]。
关键词自动提取在文本挖掘领域被称为关键词抽取(Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(Automatic Term Recognition)[2][3],在信息检索领域,就是指自动标引(Automatic Indexing)。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。
由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术[4]。
目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强, 因此关键词自动标引是一项值得研究的技术[4]。
2 标引对象的界定
在对自动标引的研究做比较分析时,首先要明确自动标引的对象,即关于标引主体的问题。与自动标引比较相关的概念,主要有标引词、主题词、关键短语、术语等,本节对这些概念做个简要介绍。
标引词是指表示文献内容特征的词语,包括主题词、关键词、关键词短语(也称关键短语)等。
在图书情报领域,关键词是指揭示文献主题的、有实质意义的语词,一般来源于文献的标题、摘要、正文等部分[5]。
在图书情报界,主题是指能概括文献的主要内容、具有一定描述规则的规范化词语。在自然语言处理研究领域中的话题检测与跟踪(Topic Detection and Tracking)研究中,话题通常被定义为“由某些原因或条件引起的发生于特定时间和地点、并可能伴随某些必然结果的一个事件”[6]。在语言学界,与“主题”这一概念相关概念的还有“话题”。本文对主题的研究仅限于图书情报领域所研究的“主题”。主题词又称叙词。它是以概念为基础从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组。在情报检索中,用它来描述文献和检索提问的主题内容。它是构成主题词表的最小词汇单元。主题词包括正式主题词和非正式主题词两种。正式主题词是规范化的、用于标引和检索的词或词组;非正式主题词是收在主题词表中,提供从非规范词指向规范词的检索入口的引导词。主题词或主题词集合是浓缩程度最高、涵义最明确的替代文献形式[7]。
关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来[8]。通常所说的短语范围很广,包括自由短语、固定短语和半固定短语三类[8]。
可以看出“关键词”概念比较模糊,有的关键词本身就是关键短语。图1给出术语、主题和标引词的关系。如图2所示,根据文本描述颗粒度不同,可将信息描述粗分为自然语言和控制词表两种方法,其中自然语言途径主要有全文、文摘、标题、关键短语、关键词等,控制词表途径主要有描述符、标题词、分类号、主题词等。
需要指出的是,本文对自动标引中的标引对象界定为关键词、关键短语或主题词。
3 自动标引的五十年研究历程
3.1 自动标引研究的三个阶段
从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。
20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:①全文索引逐渐被人采用,并且基本上能满足用户需要;②传统的自动标引方法的效率到了极限;③网络兴起之初的冲击与信息需求环境的改变。
20世纪90年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年,
关键词自动提取研究进行的如火如荼,产生该现象的主要原因为:①全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;②另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。
3.2 五十年研究的代表方法
根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,笔者归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。
1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位[12];
1958年,Luhn提出基于绝对频率加权法的自动标引方法[13];P.B.Baxendale提出从论题句和介词短语中自动提取关键词[14];
1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法[15];
1960年,Maron & Kuhns提出基于相关概率的赋词标引方法[16];
1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题[17];
1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词[18];
1973年,Salton等提出基于词区分值的自动标引方法[19];
1975年,Salton等将VSM模型用于自动标引中[20];
1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统[21];
1985年,Devadason提出基于深层结构标引方法[22];
1990年,Deerwester & Dumais等提出潜在语义分析标引法[23];
1993年,Silva & Milidiu提出基于相信函数模型的赋词标引方法[24];
1995年,Cohen提出N-Gram分析法的自动标引方法[25]。
1997年,简立峰提出基于PAT树的关键词提取方法[26];
1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法[27]; Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究[28];
2001年,Anjewierden & Kabel提出基于本体的自动标引方法[29];
2003年,Tomokiyo & Hurst提出了基于语言模型的关键词提取方法[30];Hulth利用Bagging算法进行了基于集成学习的关键词抽取[31];
2004年,李素建提出基于最大熵模型的关键词提取方法[4];
2006年,张阔提出基于SVM自动标引模型[32];
2007年,Ercan, G. & Cicekli, I提出基于词汇链的自动标引方法[33]。
4 自动标引研究路线图与方法分类
通过对自动标引研究的综述,本文总结出自动标引的研究路线图(Road Map)如图3所示。主要有三个领域的研究者对自动标引进行了不同角度的研究,即:图书情报领域,主要从资源构建角度进行研究,为主题标引提供了丰富的词表资源;语言学领域从语言分析的角度研究了主题提取的机制与方法,利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究;人工智能领域主要从机器学习角度对自动标引进行了大量的研究,如利用启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。
如图3所示,这三个领域分别从两个维度对自动标引进行研究,即:自动化程度维度,先后经历人工标引、机器辅助标引、自动标引等阶段;知识复杂程度维度,先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。
4.1 自动标引方法分类
根据标引结果的来源不同,可以将自动标引分为抽词标引和赋词标引。表1对抽词标引和赋词标引方法做了详细的分类,描述了具体的方法,并给出了各种方法的优缺点。
4.2 抽词标引方法的详细分类
如前所述,根据标引的词语的来源不同,可以将自动标引分为自动抽词标引和自动赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及到如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词[46]。赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程。即,将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法[46]。
自动抽词标引,可以进行如下的大致分类。
l 监督学习:将关键词自动提取看成一种分类问题:NB,SVM等;
l 非监督学习:利用非监督学习方法,如聚类方法获取关键词。
图4给出了基于机器学习的自动抽词方法的逻辑视图。
l 规则信息,多为语言学特征,如标题、章节名、名词等作为关键词的概率大,相应的对这些特征赋予较高权重。其他的规则信息还包括对首次出现位置(DEP)靠前的、词性(POS)名词性成分高的词语赋较大权重等;
l 统计信息,TF*IDF[38]、长度,短语的独立性等。
4.3 赋词标引方法详细分类
通常的赋词标引方法是借助于外部资源,如后控词表(包括同义词、上下位词、相关词等)、叙词表、本体等资源,将自动赋词过程转换为主题词的分类过程,或将文本的关键词转换为主题词。如图5所示,根据赋词标引所依据的外部资源对赋词标引方法进行详细分类。
5 自动标引存在的问题与研究展望
5.1 自动标引存在的问题
自动标引中存在的问题包括标引数据集不平衡问题、标引代价敏感问题、标引数据标注瓶颈问题、标引颗粒度问题、标引关键词数问题、标引结果评价问题、标引系统实用化问题等7个方面的问题。下面分别对这7个问题进行说明。
对于一个文本来说,通常标引的关键词词数为3-5个,标引的关键词词数要远小于标引的非关键词词数。从自动分类角度来看,这个问题一般被称为分类数据集不平衡问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类,分类不平衡问题是导致分类效果不理想的一个重要因素[48]。
在实际的关键词标引中,人们一般不希望将关键词误标为非关键词,一个关键词漏标的代价比将一个非关键词标为关键词的代价高。这个问题一般被称为代价敏感问题。
机器学习算法需要大量的标引样本,但已标引的样本所能提供的信息有限。另一方面,容易获得的未标引样本(如互联网上网页)数量相对于标引样本较多,且更接近整个样本空间上的数据分布。提供尽可能多的标引样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题[48]。因此,如何用少量的已标引样本和大量的未标引样本训练出一个好分类器,逐渐引起人们的关注[48]。
一般说来,较专指的词适合作关键词,但专指度并不是越大越好。过于专指,不仅增加了自动标引的难度,而且,在实际应用中,比如信息检索中,由于该词过于专指,不被一般用户所接受,使得该词作为检索入口的概率就会减小。在文本聚类中,专指越多,则特征向量越容易稀疏,增加了聚类的难度。因此,应该根据应用的场合,进行专指度自适应式的关键词自动标引。
对标引的关键词数有限制。根据应用场合选择合适的数目。在信息检索中,关键词作为一个揭示文本主题的单位,标引的关键词数适合定在9个词以内。主要原因为:首先,根据 “7