|
领域Ontology自动构建研究
刘耀 穗志方 胡永伟 冀铁亮
摘要:利用自然语言处理(NLP)理论和技术方法对已有公认领域知识,如专业叙词表、专业辞典、专业教材或权威著作等进行重构利用,并借助领域专家知识,实现基于网络的知识采集与加工,建立起受限文本的Ontology自学习机制,从而实现领域Ontology概念描述体系的自动构建,最终有效地解决了Ontology的自动构建这一瓶颈问题,成功地探索出了一种较为理想、实用的理论与方法,为专业领域Ontology的自动构建提供理论依据及技术支持。
关 键 词: 领域本体; 本体论; 自然语言处理; 叙词表; 知识工程
中图分类号: TN929.53 文献标识码: A
On Automatic Construction of Domain Ontology
LIU Yao, SUI Zhifang, HU yongwei, JI tieliang
( Institute of Computational Linguistics , Peking University, Beijing 100871,China)
Abstract: By employing natural language processing (NLP) theory and technology, this paper reconstructs such recognized ontology knowledge as professional thesauruses, professional dictionaries and textbooks, realizes knowledge collection and manipulation, and finally, based on constraint texts, builds learning system to fulfill automatic construction of domain ontology’s concept description with the help of domain experts. Therefore, this paper provides a kind of more ideal and pragmatic method for resolving problems of automatic construction of ontology effectively.
Key words: domain ontology; Ontology; natural language processing; thesaurus; knowledge engineering
Ontology(本体)是一种能在语义和知识层次上描述系统的概念模型,其目的在于以一种通用的方式来描述领域中的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重用。
Ontology作为一种新的知识组织方式,自20世纪90年代提出以来,受到了国内外越来越多的关注,但是,我们也看到,Ontology研究实际上还处于初步阶段,其理论和方法都有待于进一步完善。特别是现阶段的Ontology很多都是人工开发的。这样需要耗费大量的人力、物力和财力,时间周期也很长,由于缺少比较理想或实用的领域Ontology或通用Ontology作为基础,Ontology的应用研究举步维艰,正如文献[1]所述:由于Ontology构建的困难,以及构建技术不成熟等原因,现在真正能对Ontology进行的应用还很少。在各个应用点方面也只是一种设想或者是在小型的Ontology上进行实验。大型的实际应用仍然依赖于构建技术的突破。因此,Ontology的有效构建成为了Ontology研究乃至语义网研究的瓶颈。探讨构建领域Ontology的有效途径,特别是领域Ontology自动构建的有效途径,成为了一个无法回避的问题。
目前,在 Ontology构建途径方面,虽然提出了多种方式,但多集中在叙词表与Ontology融合、转换等方面[2][3]。在自动构建技术方面,除少数针对英文资料利用自然语言处理(NLP)技术进行构建的一些设想或小型实验外,国内未见针对性研究报道,相关技术多散见于NLP技术及其他领域内。
任何一种新的组织方法,都不可能是无中生有,而是在传统方法的基础上发展而来的。因此,实现领域Ontology的自动构建,务必是建立在大量公认领域知识的基础之上的,因此,公认领域知识的有效选择,也就成为了领域Ontology自动构建的前提,现综合分析如下:
通过对Ontology与传统信息组织方式的关系分析,我们不难发现,Ontology与以叙词表为主体的主题法极为相似。那么,主题法所描述的知识,能否作为公认的领域知识引入Ontology呢?
首先,我们还应从叙词表的构建谈起。以叙词法为主的主题法形成于上世纪50年代末,是在吸取元词法、标题法及分面组配式分类法等知识组织方法优点的基础上发展起来的。主题法以研究特定事物为中心,揭示与特定事物有关的全部或部分问题,以表达事物主题概念的规范化词语字顺的先后次序排列。主题法所使用的规范化语言是被有关的权威机构控制、承认并使用的,其词表中的术语含义明确、清晰、精练、直观、易记,能及时反映新学科、新技术的发展。词表的优劣依赖于管理机构对术语选择的严格程度,一般而言,词表的选词要遵守以下规则:(1)如果同样的术语在不同的上下文中有不同的概念含义,则必须在名称中对其模糊语义予以限制;(2)如果有多个术语表达同样的含义,则其中的一个词作为词表的首选词,其他则列为同义词或别称。从选词规则可以看出,词表是一个术语的集合,这些术语是被该学科领域公认的,具有明确的含义[4]。
另外,专业叙词表不但包含了本学科领域中相对完整的术语,而且都经过了该领域专家多年的有序组织,不仅可以为领域Ontology中概念的创建提供指导,而且叙词表中的限义词、含义注释、等级关系、词间关系,也为领域Ontology概念中的属性、实例以及关系的创建提供了线索及指导,这将为领域Ontology的创建者节省大量的时间及精力。
再者,主题法资源极为丰富,从1959年美国桂邦公司编制的第一部叙词表到2002年,国外叙词表已超过2000种,我国叙词表也超过130种[5]。基本上覆盖了所有领域,为迅速创建各领域Ontology提供了坚实基础。
因此,把叙词表作为公认的领域知识引入Ontology的构建中,颇具合理性。
专业辞典又称专科辞典,一般具有:由权威机构组织领域专家编写并经过多次修订;准确、全面地收集该领域的相关词汇或术语;及时覆盖新出现的专业词汇,充分体现专业词典的“新”、“专”特色等特点。
另外,辞典与Ontology也具有一定的相似性:两者均由概念或词条构成;均对概念或词条有不同程度的解释或说明;均是以提高检索效率与知识的共享为目的。因此,将专业辞典引入领域Ontology的构建,具有一定的优势。
教材作为人类文明的结晶和传承与发展人类文明的载体,凝聚了人类文明和人类知识的精华,具有权威性、学术性和知识性的特征,特别是以培养专业技能为核心目的的,以自然科学各学科为代表的高等教育专业教材,更是具备了这些特性。主要体现在以下两个方面:
一是科学性,教材在符合学科专业培养目标的基础上,在结构安排方面,由浅入深,符合学生的认知规律,并注重与本学科和其它相关学科体系教材之间的衔接;在内容设置和表达方面,概念的说明、原理的推导、观点的表达等应正确、严谨和符合语法规范,并体现学科发展的新内容。
二是先进性,教材不仅能批判吸收先前的科技文化成果,更能在适合我国科技和文化水平的基础上吐故纳新,不断吸纳科学文化和本学科的最新发展成果。
另外,教材形式的专业书籍或权威著作多以涉及范围全面、系统、内容详尽为特点,常被专业学者作为具有保留价值的参考书,用于疑难问题的查询。
综上所述,一套权威的专业教材或权威著作,不但能够全面地涵盖的该领域的基本知识,而且能够系统地反应出该学科的体系结构,因此,作者认为将其作为公认领域知识,引进领域Ontology的构建中来,是完全可行的。
基于以上对公认领域知识的分析,本文提出了利用NLP理论和技术方法对已有公认领域知识进行重构利用,并借助领域专家知识,建立受限文本的Ontology自学习机制,最终实现领域Ontology概念描述体系自动构建的理论与方法,基本设计思想如下:
实现领域Ontology的自动构建,务必是建立在大量公认领域知识的基础之上的,因此,如何成功地将其引入到Ontology的构建中来,也就成为了首要任务,其流程如图1所示。
基于网络资源,进行知识采集与加工,进而实现受限文本的Ontology自学习机制。