|
领域Ontology概念描述体系构建方法探析
刘耀 穗志方
该文发表于: 大学图书馆学报,2006(5):28-33
人大资料中心《图书馆学、信息科学、资料工作》全文转载,2006(12):36-45
摘要:本文通过对Ontology构建研究存在的问题,以及与传统信息组织方式之间的关系进行详细分析的基础上,吸取笔者在具体构建过程中的经验教训,对构建领域Ontology概念描述体系的有效方法与途径进行了深入探讨,并在提出解决方案的同时,着重探讨了已有公认领域知识以及领域专家有效参与,两个快速构建领域Ontology概念描述体系必备条件的实现途径与方法。
关键词:领域本体 Ontology 叙词表 构建
近年来,随着计算机应用和网络技术的不断发展,信息资源越来越丰富,如何对信息与知识进行有效的组织和管理,以便于信息与知识的共享和利用便成为一项迫切而重要的研究课题。Ontology是一种能在语义和知识层次上描述系统的概念模型,其目的在于以一种通用的方式来获取领域中的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重利用。
1、概述
Ontology原本是一个哲学概念,用于描述事物的本质,是对客观存在的系统的解释和说明。通常被译为本体论。在AI领域,Neches等人将Ontology解释为“Ontology定义了包含相关领域词汇的基本术语和关系,以及组合这些术语和关系定义词汇外延的规则”[1]。B.Chandrasekaran等人认为“Ontology属于人工智能领域中的内容理论,它研究特定领域知识的对象分类、对象属性和对象间的关系,为领域知识的描述提供术语”[2]。在知识工程领域中,则把Ontology看成是一种工程制品(Engineering Artifact)。Gruber认为“Ontology是概念化的一个形式的规范说明”[3]。Borst经过进一步研究,认为Gruber的定义过于宽泛,从而提出:“An Ontology is a formal specification of a shared conceptualization”,即Ontology是对共享概念的形式化的规范说明。强调了Ontology的可共享性(Share)和复用性(Reuse)。而Studer等人则更详细给出了Ontology的概念:“Ontology是共享概念模型的明确的形式化规范说明”。“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型;“明确”指所使用的概念以及使用这些概念的约束都有明确的定义;“形式化”指Ontology是计算机可处理的;“共享”指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识[4]。William等人从特征和形态方面对Ontology下定义,认为“Ontology用于描述或表达某一领域知识的一组概念或术语,可用于组织知识库较高层次的抽象,也可以用来描述特定领域的知识”[5]。另外,Fonseca等人从具体的建模元语来描述Ontology,认为“Ontology是一个理论,它从特定的角度使用特定的词汇去描述实体、类、属性和相关的函数”[6]。
总的来看,无论是Gruber还是Borst、Fonseca等的定义,都是将Ontology作为某一领域中的术语及术语之间关系的规范说明,是信息、知识的底层构架工具,因此,Ontology可作为知识表达的基础,避免重复的领域分析,并通过统一的术语和概念达成知识共享的目的。文献[7]则更具体的总结了Ontology的作用,即通讯(communication)、互操作(inter operability)和系统工程(systems engineering)。“通讯”,主要为人与人之间或组织与组织之间的通讯提供共同的词汇,使得人们和组织之间的交流准确无歧义;“互操作”,在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和集成;“系统工程”,Ontology分析能够为系统工程提供以下方面的好处:①重用(reusability),Ontology是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件(component)。②知识获取(knowledge acquisition):当构造基于知识的系统时,用已有的Ontology作为起点和基础来指导知识的获取,可以提高其速度和可靠性。③可靠性(reliability),形式化的表达使得自动的一致性检查成为可能,从而提高了软件的可靠性。④规范描述(specification),Ontology分析有助于确定信息系统的需求和规范。
2、存在的问题
Ontology作为一种新的知识组织方式,力图去解决知识的共享和重利用问题,在知识越来越丰富的今天,受到了越来越多的关注,在许多方面有着广泛的应用前景,许多研究也都相继开展起来。然而,我们也看到,基于Ontology知识库系统理论及应用还处于初步阶段,其理论和方法还有待于进一步完善。其主要体现在以下几个方面:
(1)目前的Ontology很多都是人工开发的。
这样需要耗费很多的人力、物力和财力,时间周期也很长,在一定程度上影响了Ontology的应用,致使Ontology研究陷入了理论研究日趋成熟,应用研究却明显滞后的局面。
(2)Ontology构建的原则、方法及其表示等许多方面都没有形成一个统一的标准。
目前,还没有哪一套现行技术路线可以直接作为构建Ontology方法的标准来使用。M.Uschold(1996)[8]试图制定出一套构建方法,但正如他在文章中指出的,他们并不是要给出一套规范性的指南,只是要表示这种方法在他们的研究环境下能很好地发挥作用。K.Mahesh(1996)[9]、Bateman(1993)[10]都给出了各自的Ontology构建原则。这些原则都是研究人员在各自的系统开发经验之上提出的,实际上,几乎每一个系统的开发都会导致一些不同的Ontology构建方案的产生。这也使得Ontology只是作为某一个单独的团体或组织内的共享,真正意义上的共享和重利用仍然没有实现。
(3)Ontology的集成方法不成熟。
由于对各自学科领域和具体工程的不同考虑,构建Ontology的过程各不相同。目前尚没有一套标准的Ontology构建方法,因此,集成方法也就更加不成熟。
(4)在Ontology的理论基础方面,Ontology的评价方法以及形式化方法还需要进一步研究与探讨。
(5)针对自然科学的Ontology系统构建相对较少。
目前,很多基本Ontology的系统应用目的是针对知识管理、语义网络和AI等方向,这是由于Ontology的研究源于AI领域,而构建领域Ontology不仅需要AI领域的Ontology工程师,更加需要领域专家参与知识体系的构造、组织和完善,而这二者往往由于各自的专业背景和研究目的不同而难以达成统一协作。
从以上几点我们不能看出,从理论上讲,Ontology的应用范围非常广泛,前景也非常光明,但前提是必须有比较理想或实用的领域Ontology或通用Ontology作为基础,缺少这个基础,所有的应用只能是空中楼阁。因此,探讨构建领域Ontology的有效途径,特别是领域Ontology概念描述体系构建的有效途径,成为了一个无法回避的问题。笔者认为欲有效地解决这一问题,我们应该先从Ontology与传统信息组织方式的关系谈起。
3、Ontology与传统信息组织方式的关系
Ontology作为一种全新的信息组织方法,能很好地适应现代网络信息组织和知识组织的需要,具有传统情报检索语言和信息组织方法所无法比拟的一些功能和特点,为信息组织特别是网络信息组织带来了许多新的变革,但是,任何一种新的组织方法,都不可能是无中生有,而是在传统方法的基础上发展而来的。因此,将其与传统的一些数据知识组织方式进行比较,更有利于我们对Ontology的理解与把握。
在传统的信息与知识组织方式中,有多种多样,如数据库、辞典、百科全书、分类表、主题词表等。但无论是数据库、辞典、百科全书、分类法、主题法还是Ontology,强调的都是对信息的表示、序化和组织。它们都是分类、构造、表示某一社会、主题的概念及其相互关系的方法,有着千丝万缕的联系。有人甚至认为最简单的Ontology是字典(hashtable)和分类树(taxonomy),再复杂一点如数据库的结构(relational schema),再复杂如XML Schema,然后就自然过渡到RDF, DAML+OIL, OWL[11]。这种描述虽然有失偏面,但也不失直观、形象。现分析比较如下:
表1:Ontology与词典、百科全书的关系表
|
Ontology |
词典、百科全书 |
|
相同 |
均是知识组织的方法,均是以提高检索效率与知识的共享为目的。 |
||
均由概念或词条构成。 |
|||
均对概念或词条有不同程度的解释或说明。 |
|||
不同 |
对象不同 |
计算机 |
人 |
形式不同 |
使用形式化的方法对概念以及概念之间的关系进行揭示。 |
对概念的解释以及概念与其他概念之间的联系通过自然语言进行表述。 |
|
知识推导 |
支持知识推导。 |
不支持知识推导。 |
|
词间关系 |
对概念及其关系进行全面表述。 |
无概念之间的关系表达。 |
|
组织方式 |
是以事物概念为核心,重在概念及其关系的体现。 |
由一个个的辞条及其解释所构成,所有辞条均按某种方式排列(如音序、笔画排列)。 |
表2:Ontology与数据库模式的关系表
|
Ontology |
数据库模式 |
相同 |
两者都能在某种程度上独立于应用程序获得对数据或者知识的独立性。 |
|
不同 |
通过在应用程序之外去确定和管理领域的语义信息而获得语义的独立性。 |
通过建立规范及对应用程序之外存储的数据元素的管理获得数据的独立性。 |
Ontology提供的是领域的知识。 |
侧重的是提供数据容器的结构。 |
|
目标重点在于知识的共享。 |
重于方便大规模数据的操作。 |
表3:Ontology与分类法、主题法的关系
|
Ontology |
分类法 |
主题法 |
|
相同点 |
都是信息组织的方法,都是以提高检索效率与知识的共享为目的。 |
|||
都是一个术语集合,都在不同程度包括了对术语的详细说明。 |
||||
都是人们为便于交流而制定的一致性标准。一致性既包含对概念上认识的一致,也包含对术语使用上的一致,即三者使用的术语都是由权威组织、机构发布的,能使特定的社会、组织就同一方式使用同一术语达成一致。 |
||||
都包括一个结构化的词汇体系,以识别一个单一的关键术语,描述一个可以用几个词汇表示的概念。 |
||||
都是从学科角度,对描述对象进行归纳或解构,均可以看作是知识体系和结构的表现,具有对词汇或概念语义上的控制。 |
||||
都适用于某一专业领域范围,被不同的个体和团体用在不同的方面。 |
||||
不同点 |
逻辑表达 |
可以用自然语言或半自然语言进行描述。 |
词汇、术语 |
词汇、术语 |
组织结构 |
Ontology中的类或概念的分布是一个立体网状结构。 |
平面树状结构 |
一般为一维或二维架构 |
|
系统的开放性 |
是一个开放集成的体系。底层知识库与概念集会随着学科领域的更新和发展随时进行修正和更新。 |
学科分类体系相对稳定,结构保守而单一,不具有动态更新的特点。 |
词表相对稳定,不具有动态更新的特点。 |
|
语义关系 |
不仅显示术语及其内在关系规则,还定义了一系列有关对象和关系的类,提供一种推理的机制。 |
词表中只包含上下位关系。 |
提供术语词汇列表以及参照系统显示词间关系。只包含简单的语义关系。 |
|
包含的内容 |
不仅是概念集还包括知识库,是以事物概念为核心,重在概念及其关系的体现。 |
是一个词汇库,是按照知识门类逻辑次序,逐级展开。 |
是一个词汇库,主要从表达主题概念的词汇入手,从非规范词指向规范词。 |
|
产生的背景 |
是网络信息环境下产生及发展起来的, 能够较好地适应网络信息需求。 |
是从传统纸质文献环境发展起来的,在网络时代面临重大调整与改进。 |
是从传统纸质文献环境发展起来的,在网络时代面临重大调整与改进。 |
|
构建的人员 |
由领域专家参与建立,对概念之间的关系描述更加详尽,能够反映学科内在联系,学术性、专业性更强。 |
由情报人员负责编写,词间关系的显示限于一定程度,不够详尽合理。 |
由情报人员负责编写,词间关系的显示限于一定程度,不够详尽合理。 |
综上所述,我们不能看出,信息组织的方法是随着时代的变化而变化的,其目的都是为了方便人们对信息的高效利用。在人类对信息进行组织的历史进程中,Ontology与主题法最具相似性,正如文献[12]所述:从其实质而言,一个正式的本体(Ontology)可以说是关于特定领域或主题的一个表示词表,即一个本体不像词表一样被严格限制,而是对词表中术语的概念化描述。一个本体包括一定领域内的人们所共同理解并认可的概念、说明概念范畴及其互相之间关系的定义、在本概念化结构内进行推理(reasoning)的条件限制与规则。
4、构建方法探析
由于对各自学科领域和具体工程的不同考虑,构建Ontology的过程也各不相同。目前尚没有一套标准的领域Ontology构建方法。一般认为,Gruber在1995年提出的5条规则[13]是比较有影响的:
(1)明确性和客观性: Ontology应该用自然语言对术语给出明确、客观的语义定义。(2)完整性:所给出的定义是完整的,能表达特定术语的含义。(3)一致性:知识推理产生的结论与术语本身的含义不会产生矛盾。(4)最大单向可扩展性:向Ontology中添加通用或专用的术语时,通常不需要修改已有的内容。(5)最少约束:对待建模对象应该尽可能少列出限定约束条件。
事实上,对于构建一个真正的领域Ontology来说,没有一种“唯一”的途径或方法,正如文献[14]所述:
(1)任何专业领域中,都不存在一种唯一适合的途径或模式——其实可能有好几种方法都可行。最佳的方法依赖于所采用的应用软件以及可以预见的扩展功能。(2)领域Ontology的开发和完善是一个反复叠加的过程。(3)无论从客观世界具体的角度或者是从逻辑抽象的角度出发,领域Ontology中概念的设计都应该贴近于研究者要研究的专业领域中,客观对象和对象间的关系法则。
因此,借助已有的公认的领域知识以及领域专家的有效参与,便成为构建领域Ontology不可或缺的两个必备条件。现分析如下:
4.1、公认的领域知识
从上述“Ontology与传统信息组织方式的关系”一节中,我们不难看出,Ontology与以叙词表为主体的主题法极为相似。那么,主题法所描述的知识,能否作为公认的领域知识引入Ontology呢?
首先,我们还应从叙词表的构建谈起。以叙词法为主的主题法形成于上世纪50年代末,是在吸取元词法、标题法及分面组配式分类法等知识组织方法优点的基础上发展起来的。主题法以研究特定事物为中心,揭示与特定事物有关的全部或部分问题,以表达事物主题概念的规范化词语字顺的先后次序排列。主题法所使用的规范化语言是被有关的权威机构控制、承认并使用的,其词表中的术语含义明确、清晰、精练、直观、易记,能及时反映新学科、新技术的发展。词表的优劣依赖于管理机构对术语选择的严格程度,一般而言,词表的选词要遵守以下规则:(1)如果同样的术语在不同的上下文中有不同的概念含义,则必须在名称中对其模糊语义予以限制;(2)如果有多个术语表达同样的含义,则其中的一个词作为词表的首选词,其他则列为同义词或别称。从选词规则可以看出,词表是一个术语的集合,这些术语是被该学科领域公认的,具有明确的含义[15]。因此,把叙词表作为公认的领域知识引入Ontology的构建中,颇具合理性。
另外,专业叙词表不但包含了本学科领域中相对完整的术语,而且都经过了该领域专家多年的有序组织,不仅可以为领域Ontology中概念的创建提供指导,而且叙词表中的限义词、含义注释、等级关系、词间关系,也为领域Ontology概念中的属性、实例以及关系的创建提供了线索及指导,这将为领域Ontology的创建者节省大量的时间及精力。
再者,主题法资源极为丰富,从1959年美国桂邦公司编制的第一部叙词表到2002年,国外叙词表已超过2000种,我国叙词表也超过130种[16]。基本上覆盖了所有领域,为迅速创建各领域Ontology提供了坚实基础。
4.2领域专家的有效参与
在领域专家的帮助下构建领域Ontology,实现领域知识体系的构造、组织和完善,已成为一种共识,但是,由于领域专家大多不熟悉Ontology的构建技术和方法,二者往往由于各自的专业背景和研究目的不同而难以达成统一协作,因此,领域专家的有效参与也就成为了关系到领域Ontology构建成败的关键问题。
实现领域专家的有效参与,是构建工程中涉及到一个实际问题,由于现有的Ontology多为应用Ontology,涉及到的领域知识不太深入,工程相对简单,矛盾并不突出,以至于鲜有这方面的论述。我们在“知识元数据库及其基础平台建设”这一项目中,涉及到多领域Ontology的构建与实现,使其倍显突兀。主要表现在:
(1)个体领域专家分类意见难以统一。(2)个体领域专家在不少具体问题上,分歧较大。(3)深层知识难以进行有效描述。(4)描述用词混乱,不规范。(5)实际操作中选用术语级别交叉错乱,结构树如同虚设,导致推理失效。
因此,要想取得较为理想的应用效果,就必须在为领域专家提供有效辅助工具,大力提高构建速度的同时,更加注重对领域专家进行知识描述用词的限制,即选用的描述词汇应限制在系统所提供的备选术语集内。
5、实例分析
基于上述理论与实践,我们在“知识元数据库及其基础平台建设”Ⅰ期工程中,不但成功实现了医学领域Ontology的快速构建,而且成功开发了基于Ontology的医学信息检索与内容分析系统(开发及应用技术有另文详述),为领域Ontology的构建,特别是领域Ontology概念描述体系的构建进行了有益的探索。现论述如下:
一是充分利用专业叙词表、术语词典。
专业叙词表和术语词典,不但包含了该领域中相对完整的术语,而且都经过了领域专家多年的有序组织,符合Ontology概念中共享的要求。“共享”指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识。由此可见,专业叙词表、术语词典是构建领域Ontology的必备基础,因为不要说是一个领域Ontology课题组,即便是国家行为也难在短时间内组织构建一个即在质量上超过它们又能取得领域普遍认可的概念集合来。这也是笔者前文强调的“领域Ontology必须是一个开发和完善反复叠加的过程”的原因,任何好大喜功的作法都是不现实的、也是不科学的。本系统在对包括MeSH表[④]、《国际疾病分类》(ICD)、医学名词术语、标准医学参考术语(SNOMED)等在内的几十余种受控语言词表,进行综合分析后,决定以最具权威的MeSH表的分类为主,参见《国际疾病分类》(ICD)、医学名词术语、SNOMED等,构建医学领域Ontology概念描述体系。
二是巧妙利用分类成果,实现Ontology最大单向可扩展性。
任何专业领域都不可能是孤立的,这在专业分类和专业叙词表中都有一定程度的体现,可以充分利用这一成果,实现Ontology的扩展、集成与共享。我们将Mesh、SNOMED等系统中所涉及的近二十个分类,如“解剖”、“疾病”、“有机体”、“诊断治疗”等。以Ontology类的方式进行构建,同时,又将“疾病”类之外的其它类更名后设定为“疾病”类的属性,并将其取值范围设定为类。这样不但可以通过“疾病”类,对整个医学领域知识进行更加有效地组织,同时,也预留了大量接口,如“人文科学”、“信息科学”、“地理名称”、“教育”、“社会学和社会现象”等,从而有效地实现Ontology最大单向可扩展性。
三是开发辅助工具,实现已有公认领域知识的自动导入。
人工开发Ontology,需要耗费大量的人力、物力和财力,时间周期也很长,在一定程度上影响了Ontology的应用,将多种公认领域知识自动导入,是实现快速构建领域Ontology的又一必备条件,我们在系统实现之初,就编制多种针对性工具,将多种医学领域知识如国际疾病分类、Mesh、医学名词术语、SNOMED等自动导入到由Protégé3.1改进的Ontology编辑器,并成功保存其原有结构,节省了大量的人力、物力和财力,使项目在较短的时间内快速启动。
四是反向利用叙词表构建规则,降低概念的冗余度。
领域Ontology应该是该领域绝大部分知识重点的一个最少量的概念集合,同时这些概念应具有最小化的概念冗余。概念的冗余度是指两个概念相似的程度,两个概念的冗余度大则表示这两个概念具有相近的意义。当冗余度达到一定的域值时,就认为这两个概念可以只取其中一个[17]。而叙词表的构建规则中明确规定词与概念之间一一对应,即一个概念只能用一个词表达,一个词只能表达一个概念。词义规范为:对同义词、准同义词、近义词、不同译名、学名与俗名等加以规范,只能用一个规范化的词作叙词。利用这一规则及现有成果,能有效降低概念的冗余度。
五是限制概念描述用词,尽可能克服语义逻辑上的缺陷,实现Ontology的推理机能。
由于领域专业人员的知识结构、认知水平、用词习惯及文字表达能力之不同,对概念的描述用词也不尽相同,致使级别交叉错乱、推理失效。因此,我们对专业人员在概念描述用词方面进行了限制,所有概念词汇必须是在系统提供的备选术语集内进行选择(如词汇存在于多种术语集者,系统提供优先级,顺序为:MeSH表、《国际疾病分类》(ICD)、SNOMED、医学名词术语、其他),不提供写入功能,如有异议可以在系统提供的扩展词槽或备注中键盘录入,即在实现概念的完整性的同时,必须确保其一致性。
六是概念用词尽可能地限定在叙词范围内,实现情报检索语言的无缝衔接与自然过渡。
概念用词限定尽可能限定在叙词范畴内,目的有二:①可以对概念数量进行有效控制,使其处在一个适量的范围内,因为在网络环境下不管你使用哪种方法,想以一个Ontology囊括一切科学领域的做法与当今信息交流活跃、新名词如潮水般涌现的现状是矛盾的、不切实际的。我们在不断丰实概念外围信息的同时,应有效确保概念内核的稳定。②叙词法适用于计算机和手工检索系统,是目前应用较广的一种语言。CA、EI等著名检索工具都采用了叙词法进行编排。将概念用词尽可能地限定在叙词范围内,可以实现Ontology与传统情报检索语言的无缝衔接与自然过渡。
参考文献:
[1]R Neches,R E Fikes,T Finin,et al.Enabling Technology for Knowledge Sharing[J].AI Magazine,1991,12(3):36 56.
[2]B Chandrasekaran,et al.What are Ontologies,and Why do We Need Them[J].IEEE Intelligent Systems, 1999, 14(1):20 26.
[3]Thom as R Gruber. Ontolingua: A Translation Approach to Potable Ontology Specification[J].Knowledge Acquisition,1993,5(2):199-200.
[4]Rudi Studer,V Richard Benjamins, Dieter Fensel. Knowledge Engineering Principles and Methods[J].IEEE Transactions on Data and Knowledge Engineering,1998,25:161 197.
[5]William S,Austin T. Ontologies[J].IEEE Intelligent Systems,1999(1/2):18 19.
[6]Nicola Guarino Formal Ontology and Information Systems[ C].Proceedings of FOIS' 98,1998.3-17.
[7]Uschold, M and Gruninger, M, 1996. Ontologies: Principles, methods and applications. The Knowledge Engineering Review 11 (2).
[8]Uschold,Mike and Mic hael Gruninger.1996.Ontologies Principles,Methods and Applications.Knowledge Engineerin Review.11(2)
[9]Mahesh,K.and S.Nirenburg.1996.Meaning Representation for Knowledge Sharing in Practical Machine Translation.Proceedings of the AI Resource Seminar:Special Track on Information Interchange,
[10]JohnA.Bateman(1993).Ontology construction and natural language.In:Proceedings of the International Workshop on Formal Ontology.Padova,Italy,pp.83-93.Published by LABSEB-CNR.LADSEB-CNR Internal Report 01/93;edited by:N.Guarino and R.Poli.
[11]关于Ontology.http://boole.cs.iastate.edu/semanticweb/view.cgi?forum=29&topic=9
[12] [15]高凡,李景.Ontology及其与分类法、主题法的关系.图书馆理论与实践.2005(2):44-46
[13]Peter D.Karp and Thomas R.Gruber(1995).A Generic Knowledge-base Access Protocol.Proceedings of the International Joint Conferences on Artificial Intelligence,Montreal,1995.An Ontology-based knowledge sharing API for AI people.
[14] [17]李景,孟连生.构建知识本体方法体系的比较研究.现代图书情报技术.2004(7):17-22
[16]常春,卢文林.叙词表编制历史、现状与发展.农业图书情报学刊.2002(5):25-28
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 18:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社