|||
原文发表于《情报理论与实践》2010年10期
●刘 耀1 ,穗志方2 ,胡永伟2 ,赵庆亮2(1.中国科学技术信息研究所,北京 100038;2.北京大学 计算语言学研究所,北京 100871)
基于内容与形式交互的图书馆资源组织语义化方法研究*
摘 要:网络环境下的图书馆资源语义化已是大势所趋,本文在对国内外相关研究进行深入分析的基础上,依据“书目原理”与“共轭控制理论”,提出图书馆资源语义化应分为“内容语义化”和“组织语义化”两个层次的设想,并认为图书馆资源组织语义化,可以看作图书馆资源语义标注的浅层标注,是内容语义化与形式语义化交互实现的过程,提出了基于NLP理论与方法,结合传统图书馆资源组织方式(分类法、主题词法)与领域本体构建技术,搭建辅助构建及标注一体化平台,进而实现语义元数据体系构建与资源组织语义化过程同步实施的解决方案,这一思想与方法的提出与实现,可以有效地促进图书馆资源语义化进程,使语义自动标注与知识服务成为可能。
关键词:信息资源;语义化;语义标注;知识工程
图书馆存储了大量的文献资源。如何帮助用户全面、快速、准确地发现蕴涵在文献中的知识,从不同的知识维度展示这些知识、发现文献所承载的知识之间的各种关联,进而辅助用户更高效地进行知识创新,这是实现图书馆下一代文献服务的跨越式发展,从文献信息检索服务上升到文献的知识服务的关键问题。因此,网络环境下的图书馆资源组织语义化已是大势所趋。所谓语义化,就是选择适合的语义标签,通过资源中标签的内容反映出资源的语义特征,从而将内容转换成计算机可识别的形式,使计算机在一定程度上实现对资源内容的理解和掌握。
1概述
在图书资源的语义化问题上,本研究依据“书目原理”(将某一文献信息浓缩为某一款目,将其作为这一文献信息的替代品,然后将款目组织排列成书目成为文献信息群的替代品,进而通过书目对文献信息进行揭示、识别和检索最终达到对海量文献信息有效控制的目的)与“共轭控制理论”[1-2](需要控制而又未能控制的事物甲与可控制的事物乙之间具有相似或相关的关系,施控者通过控制事物乙,达到控制事物甲的目的)提出“内容语义化”和“组织语义化”两个层次。内容语义化,即利用自然语言处理技术对文献资源进行语义标注,实现计算机对文献内容的理解与掌握,其对语义化的解释前提是:每个词的意义是什么,词的意义如何结合成句子的意义,句子的意义如何构成篇章的意义等。文献内容丰富多样,浩若烟海,实现内容语义化虽然是资源语义化的终级目标,但就目前的自然语言处理技术来看,基本上难以实现。而知识服务又必须要求我们实现资源的结构化与语义化,因此,可将其视为“事物甲”。
组织语义化强调的是通过各类标签表示的组织形式上的语义化,其对语义化的解释前提是概念及概念关系的结构化与网络化。由于当前情报检索语言已达到相当高的控制水平[3],我们可以通过自然语言处理技术结合高密度知识单元对其进行重构与改造,使其具备一定的语义结构,进而实现资源组织的语义化,因此,可将其视为“事物乙”。那么,能否通过控制“事物乙”达到控制“事物甲”的目标呢?这是由内容语义化与形式语义化的关系来决定的。其实,“内容语义化”和“组织语义化”并不是独立的,是根据内容的语义去选择标签的(语义标注),这时标签的语义也就代表了内容的语义。笔者认为图书馆资源组织语义化,可以看作图书馆资源语义标注的浅层标注,是内容语义化与形式语义化交互实现的过程,因此,笔者提出了“基于内容与形式交互的图书馆资源组织语义化方法研究”的设想,其中涉及的两个关键问题是:语义元数据的生成和语义标注。
2 国内外相关研究现状
语义元数据[3](也称作标签本体 Tag Ontologies)提供数据的语义信息,是图书馆资源组织语义化的重要工具,在对仅仅为人所能阅读信息转换为机器可处理的信息中,起着极为重要的作用。这也使得近年来给数据赋予其语义信息的工作,即语义元数据生成,得到了越来越多研究人员的关注。
语义元数据生成技术与领域知识库或领域本体构建技术,从技术实现来看基本上是一致的,方法与理念也相对成熟,本研究也进行了艰苦的探索与研究,已取得大量成果 [4-8]。
另外一个关键问题是语义标注,语义标注的方法目前来说有3类:人工标注;领域文档类型定义(DTD)和文档模式进行概念映射和标注;利用词汇语义分析进行标注[9]。手工语义元数据生成耗费大量的时间且包含大量错误,这使得一些工作集中在研发标注工具来简化手工语义元数据生成的工作。为了降低语义元数据生成过程中人的参与,一些半自动的辅助技术被应用到上述标注工具中。如CREAM 系统的扩展研究中的S_CREAM[10]和PANKOw [11]等方法。为了彻底地自动化整个标注过程,大量的工作集中在设计自动语义元数据生成模型与方法上面。如Huang等人提出了一个基于Web的自动主题元数据生成系统[12]。Yang和Lee提出了一种自动生成网页的语义元数据的方法[13]。A.Dingli等人提出了一个叫做Armadillo的框架[14]。H.Graubitz等人展示了DIAsDEM 框架[15]。J.Li展示了一个基于依存语法的将句子进行语义标注并转化为RDF样式的机器学习方法[16]。Dill等人描述了一个在大规模语料里面进行语义标注的工程——semTag[17]。
通过对以上工作进行分析,不难发现,许多研究存在内容语义化与组织语义化概念模糊的问题,即将组织语义化等同于内容语义化(内容的语义化过程,过度依赖自然语言处理研究的突破),由于理论上的局限,导致资源语义化实现的结果不理想。国外部分学者也认识到了这一点,如 Specia和Motta [18],Hak Lae Kim [19]等提出了整合民俗分类法和本体,以丰富标签的语义表达功能的解决方案。民俗分类法的强大在于它可以聚合所有个人感兴趣的、被标签标注的信息。这对于网络信息组织来说具有一定的优势,但对于图书馆资源组织来说就太过于随意了。因此,本研究提出基于NLP理论与方法,结合传统图书馆资源组织方式(分类法、主题词法)与领域本体构建技术,构建语义元数据体系,搭建辅助构建及标注一体化平台,进而实现体系构建与资源组织语义化过程的同步实施的理论与方法。
3 需要解决的关键问题
1)开发辅助构建平台。研发面向知识密集型文本片段的自然语言分析技术,构建语义元数据辅助构建平台。
2)研究语义标注技术。开发基于语义元数据的中文语义标注技术,构建辅助平台,自动或半自动实现文献的语义标注。
3) 研究标签数据本身的描述深度和传统组织资源的协同性。当前语义元数据(标签本体)的研究还处于初级阶段,标签数据本身的描述深度和传统组织资源的协同性研究也是重点内容,需要进一步深化并相互借鉴融合,使其更加丰富并更具有适应性。其中主要包括:标签数量与语义标注质量之间的关系研究、组织语义化质量与内容语义化程度的关系研究等内容。
4思路与方法
利用自然语言处理(NLP)技术和机器学习方法对已有公认领域知识,如专业叙词表、专业辞典、专业教材或权威著作等进行重构利用,构建领域本体的基础上,开发中文文献资源语义标注技术,对相关文献进行语义标注,并在大量内容相对语义化的基础上,结合传统组织资源(叙词表等),通过机器学习等方法,生成初始语义元数据,然后在辅助平台的帮助下实现图书馆资源组织语义化过程与语义元数据体系的构建同步进行,并将语义标注文献与语义索引分别存储。流程与结构见图1。