刘耀分享 http://blog.sciencenet.cn/u/liuysd 中国科学技术信息研究所 研究员 硕士生导师

博文

领域Ontology自动构建研究

已有 7212 次阅读 2008-6-11 09:00 |个人分类:科研笔记

领域Ontology自动构建研究

刘耀 穗志方 胡永伟 冀铁亮

  该文发表于:  北京邮电大学学报,2006, 29 (11增刊):65-69

2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集(EI收录)

摘要:利用自然语言处理(NLP)理论和技术方法对已有公认领域知识,如专业叙词表、专业辞典、专业教材或权威著作等进行重构利用,并借助领域专家知识,实现基于网络的知识采集与加工,建立起受限文本的Ontology自学习机制,从而实现领域Ontology概念描述体系的自动构建,最终有效地解决了Ontology的自动构建这一瓶颈问题,成功地探索出了一种较为理想、实用的理论与方法,为专业领域Ontology的自动构建提供理论依据及技术支持。

    : 领域本体; 本体论; 自然语言处理; 叙词表; 知识工程

中图分类号: TN929.53                         文献标识码: A

On Automatic Construction of Domain Ontology

LIU Yao, SUI Zhifang, HU yongwei, JI tieliang

( Institute of Computational Linguistics , Peking University, Beijing 100871China)

Abstract: By employing natural language processing NLP theory and technology, this paper reconstructs such recognized ontology knowledge as professional thesauruses, professional dictionaries and textbooks, realizes knowledge collection and manipulation, and finally, based on constraint texts, builds learning system to fulfill automatic construction of domain ontology’s concept description with the help of domain experts. Therefore, this paper provides a kind of more ideal and pragmatic method for resolving problems of automatic construction of ontology effectively.

Key words: domain ontology; Ontology; natural language processing; thesaurus; knowledge engineering

 


0

Ontology(本体)是一种能在语义和知识层次上描述系统的概念模型,其目的在于以一种通用的方式来描述领域中的知识,提供对领域中概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重用。

Ontology作为一种新的知识组织方式,自20世纪90年代提出以来,受到了国内外越来越多的关注,但是,我们也看到,Ontology研究实际上还处于初步阶段,其理论和方法都有待于进一步完善。特别是现阶段的Ontology很多都是人工开发的。这样需要耗费大量的人力、物力和财力,时间周期也很长,由于缺少比较理想或实用的领域Ontology或通用Ontology作为基础,Ontology的应用研究举步维艰,正如文献[1]所述:由于Ontology构建的困难,以及构建技术不成熟等原因,现在真正能对Ontology进行的应用还很少。在各个应用点方面也只是一种设想或者是在小型的Ontology上进行实验。大型的实际应用仍然依赖于构建技术的突破。因此,Ontology的有效构建成为了Ontology研究乃至语义网研究的瓶颈。探讨构建领域Ontology的有效途径,特别是领域Ontology自动构建的有效途径,成为了一个无法回避的问题。

目前,在 Ontology构建途径方面,虽然提出了多种方式,但多集中在叙词表与Ontology融合、转换等方面[2][3]。在自动构建技术方面,除少数针对英文资料利用自然语言处理(NLP)技术进行构建的一些设想或小型实验外,国内未见针对性研究报道,相关技术多散见于NLP技术及其他领域内。

1         领域知识分析

任何一种新的组织方法,都不可能是无中生有,而是在传统方法的基础上发展而来的。因此,实现领域Ontology的自动构建,务必是建立在大量公认领域知识的基础之上的,因此,公认领域知识的有效选择,也就成为了领域Ontology自动构建的前提,现综合分析如下:

1.1    专业叙词表

通过对Ontology与传统信息组织方式的关系分析,我们不难发现,Ontology与以叙词表为主体的主题法极为相似。那么,主题法所描述的知识,能否作为公认的领域知识引入Ontology呢?

首先,我们还应从叙词表的构建谈起。以叙词法为主的主题法形成于上世纪50年代末,是在吸取元词法、标题法及分面组配式分类法等知识组织方法优点的基础上发展起来的。主题法以研究特定事物为中心,揭示与特定事物有关的全部或部分问题,以表达事物主题概念的规范化词语字顺的先后次序排列。主题法所使用的规范化语言是被有关的权威机构控制、承认并使用的,其词表中的术语含义明确、清晰、精练、直观、易记,能及时反映新学科、新技术的发展。词表的优劣依赖于管理机构对术语选择的严格程度,一般而言,词表的选词要遵守以下规则:(1)如果同样的术语在不同的上下文中有不同的概念含义,则必须在名称中对其模糊语义予以限制;(2)如果有多个术语表达同样的含义,则其中的一个词作为词表的首选词,其他则列为同义词或别称。从选词规则可以看出,词表是一个术语的集合,这些术语是被该学科领域公认的,具有明确的含义[4]

另外,专业叙词表不但包含了本学科领域中相对完整的术语,而且都经过了该领域专家多年的有序组织,不仅可以为领域Ontology中概念的创建提供指导,而且叙词表中的限义词、含义注释、等级关系、词间关系,也为领域Ontology概念中的属性、实例以及关系的创建提供了线索及指导,这将为领域Ontology的创建者节省大量的时间及精力。

再者,主题法资源极为丰富,从1959年美国桂邦公司编制的第一部叙词表到2002年,国外叙词表已超过2000种,我国叙词表也超过130[5]。基本上覆盖了所有领域,为迅速创建各领域Ontology提供了坚实基础。

因此,把叙词表作为公认的领域知识引入Ontology的构建中,颇具合理性。

1.2    专业辞典

专业辞典又称专科辞典,一般具有:由权威机构组织领域专家编写并经过多次修订;准确、全面地收集该领域的相关词汇或术语;及时覆盖新出现的专业词汇,充分体现专业词典的特色等特点。

另外,辞典与Ontology也具有一定的相似性:两者均由概念或词条构成;均对概念或词条有不同程度的解释或说明;均是以提高检索效率与知识的共享为目的。因此,将专业辞典引入领域Ontology的构建,具有一定的优势。

1.3    专业教材或权威著作

教材作为人类文明的结晶和传承与发展人类文明的载体,凝聚了人类文明和人类知识的精华,具有权威性、学术性和知识性的特征,特别是以培养专业技能为核心目的的,以自然科学各学科为代表的高等教育专业教材,更是具备了这些特性。主要体现在以下两个方面:

一是科学性,教材在符合学科专业培养目标的基础上,在结构安排方面,由浅入深,符合学生的认知规律,并注重与本学科和其它相关学科体系教材之间的衔接;在内容设置和表达方面,概念的说明、原理的推导、观点的表达等应正确、严谨和符合语法规范,并体现学科发展的新内容。

二是先进性,教材不仅能批判吸收先前的科技文化成果,更能在适合我国科技和文化水平的基础上吐故纳新,不断吸纳科学文化和本学科的最新发展成果。

另外,教材形式的专业书籍或权威著作多以涉及范围全面、系统、内容详尽为特点,常被专业学者作为具有保留价值的参考书,用于疑难问题的查询。

综上所述,一套权威的专业教材或权威著作,不但能够全面地涵盖的该领域的基本知识,而且能够系统地反应出该学科的体系结构,因此,作者认为将其作为公认领域知识,引进领域Ontology的构建中来,是完全可行的。

2         设计思想

基于以上对公认领域知识的分析,本文提出了利用NLP理论和技术方法对已有公认领域知识进行重构利用,并借助领域专家知识,建立受限文本的Ontology自学习机制,最终实现领域Ontology概念描述体系自动构建的理论与方法,基本设计思想如下:

2.1    基础流程

实现领域Ontology的自动构建,务必是建立在大量公认领域知识的基础之上的,因此,如何成功地将其引入到Ontology的构建中来,也就成为了首要任务,其流程如图1所示。

2.2    扩充流程

基于网络资源,进行知识采集与加工,进而实现受限文本的Ontology自学习机制。

 

1 基础流程图

2扩充流程图

Ontology是一个开放集成的体系。底层知识库与概念集应该随着学科领域的更新和发展随时进行修正和更新,因此,针对权威机构网站发布的更新信息,进行定期采集与获取,可以有效地解决这一问题。其流程如图2所示。

3         实现步骤与方法

3.1    专业叙词表的重构与利用

专业叙词表的自动导入只是实现了描述语言上一种转换,但是,领域Ontology中概念的设计应最大限度地贴近于研究者要研究的专业领域中客观对象和对象间的关系法则。因此,专业叙词表虽然是该专业公认的领域知识,但叙词表多是由图书情报人员编写而成,有较强的文献标注覆盖面,却不能够深层次反映学科内在联系,必须对其进行知识重构,使其具备更强的学术性、专业性。

411从树状结构到多层嵌套的立体网状结构的转变:

叙词表为了文献标引的方便,多把主题词平行分布在多个树状结构内。背离了专业知识体系描述习惯与方法,因此,必须在专业叙词表中寻找关键类,以此作为知识描述的基本单元,建立层次结构体系。该设计不但可以实现概念描述体系从树状结构到多层嵌套的网状结构的转变;同时,也有效地实现了领域Ontology最大单向可扩展性。

例如:MeSH表为了方便文献标引,把医学领域中主要主题词平行分布在了15个大类(A-Z)中,如:A解剖、B有机体、C疾病、D化学制品和药物、E分析诊断和治疗的技术和设备、N卫生保健等,类与类之间并无主次之分,背离了医学知识体系描述习惯与方法,因此,本课题在MeSH表所分的15个大类中,以疾病类C)主题词作为知识描述的基本单元,建立疾病类的层次结构体系,以此建立知识的纵向关联:以其他类(A解剖、B有机体、D化学制品和药物、E分析诊断和治疗的技术和设备、N卫生保健)作为对疾病类知识元的描述属性,以此建立疾病类知识的横向关联。

通过这种转变,不但实现概念描述体系从树状结构到多层嵌套的网状结构的转变。同时,也预留了大量接口,如人文科学信息科学社会学和社会现象等,它们即是多层嵌套的网状结构的有机组成部分,又以独立的树状结构而存在,从而有效地实现领域Ontology最大单向可扩展性。

412从文献检索与标引到专家系统双重功能的转变:

从树状结构到多层嵌套的立体网状结构的转变,虽然可以改变概念体系的描述结构,却没有改变对知识深层的描述方式,必须依据专业知识进行再次重构。如医学领域可以临床为核心组织疾病类知识:根据临床医学的知识描述框架,将疾病类知识框架中其他类(A解剖、D化学制品和药物、N卫生保健)合并、拆分,得到疾病类属性包含:症状与体征、治疗与护理等。并将其他类也根据专业知识进行进一步的描述,如D化学制品和药物的描述属性:作用与用途、剂型规格、性状、用法用量、不良反应、注意事项、贮藏等。以此分别建立其他14类知识的描述框架。

通过这次重构,实现从主要服务于文献检索与标注到即服务于文献检索与标注又服务于临床诊断与治疗的双重功能的转变。

3.2    基于NLP技术的知识描述体系的构建与获取

通过对专业叙词表的重构与利用,我们也就获得了领域Ontology的基本架构,但这还远远不够,需要集成NLP技术,实现从传统的知识描述到NLP智能分析描述的功能转变。

421概念属性的深化描述

为了获得广泛意义上的构建方法与技术,我们突破学科限制,从自然语言分析和知识挖掘的高度出发,将每个概念的属性描述都分为三种方式:概述类描述、专业类描述、NLP语义类描述。

1)概述类描述

概述类主要包括名称、英文名、释义、代码与约束。其中名称、英文名、代码等由叙词表等所带信息自动生成。释义是利用概念词(主题词)与专业词典词条匹配后,实现概念定义文本的自动填充。

2)专业类描述

每个概念的专业类属性又分为两种描述形式:自然语言文本描述、知识元描述(NLP主题自动标引)。如在医学领域中,疾病类的专业类属性可以描述为:症状与体征发病部位以及症状与体征2”发病部位2”等。其中症状与体征发病部位的属性值是利用自然语言文本进行描述的,即:填充的属性值是自然文本。而症状与体征2”发病部位2” 的属性值则是利用自然语言文本描述属性中的文本内容进行NLP主题自动标引后进行映射关联形成的,即:填充的属性值是相关结点(概念)属性的集成与关联(关联概念携带其固有关系及结构)。详见图3

 

3 专业类属性生成流程图

3NLP语义类描述

NLP语义类主要包括自由词(NLP自动切分)、同义词、相关词、中文概念词典(CCD)词等。其中自由词是由系统对其相应自然文本进行自动切分标注,并利用所得术语与已有概念集(叙词表)进行匹配后,没有相应匹配的术语组成。这种方法既可以有效集成新术语(即新概念的扩充)又可以有效控制概念的冗余度。

领域Ontology应该是该领域绝大部分知识重点的一个最少量的概念集合,同时这些概念应具有最小化的概念冗余。概念的冗余度是指两个概念相似的程度,两个概念的冗余度大则表示这两个概念具有相近的意义。当冗余度达到一定的域值时,就认为这两个概念可以只取其中一个[6]。而叙词表的构建规则中明确规定词与概念之间一一对应,即一个概念只能用一个词表达,一个词只能表达一个概念。词义规范为:对同义词、准同义词、近义词、不同译名、学名与俗名等加以规范,只能用一个规范化的词作叙词。利用这一规则及现有成果,能有效降低概念的冗余度。

422其他Ontology的集成方法研究

《中文概念词典(CCD)》是WordNet框架下的现代汉英双语概念词典,同时提供汉英双语概念的语义知识表达。在词典的设计上,用同义词集合来描述概念,用概念间的关系(relation)来描述语义;针对中文的特点,CCD也对概念的内容和概念间的关系进行了一定的调整和发展;具有方便的语义关系表示和检索手段;同义词集合(同义关系)、上下位关系、整体部分关系等的描述,有利于实现概念的分级扩展和语义距离的计算。作为基于概念的语义知识库,CCD在信息提取、文本分类等方面是不可或缺的基础资源,为其中的语义理解任务提供宝贵的语义知识库资源。

因此,将其相关概念进行匹配,做为NLP语义类描述属性的一部分,引入到系统的构建中来,并对二者做了相关映射,从而有机地实现了领域Ontology与通用Ontology的有效衔接。

通过上述方法,实现了从传统的知识描述到NLP智能分析描述的功能转变,从而为领域Ontology的自动构建奠定了物质基础。

4         构建平台的研制与开发

将多种公认领域知识自动导入,是实现快速构建领域Ontology的必备条件之一,我们在系统实现之初,就编制多种针对性工具,将多种医学领域知识如Mesh、国际疾病分类、英汉医学辞典、医学名词术语等自动导入到由Protégé3.1改进的Ontology编辑器(见图4),并成功保存其原有结构,节省了大量的人力、物力和财力,使项目在较短的时间内快速启动。其主要特点如下:

多样化的导入、导出方式(RTF/XML/OWL等) :方便与国际上相关的Ontology之间的知识交流、知识共享和知识重用;

强大的编辑功能:层次结构的调整、属性关系的调整、属性值的增删改等;

强大的检索功能:可以对知识元或属性进行精确查找和模糊查找;

多层次网络的知识互联;

多层次知识网络的可视化;

NLP自动分析;

网络内容提取与挖掘。

4 领域Ontology自动构建平台界面之一

5         应用研究

在成功构建的基础上,课题组也进行了多种应用研究,主要体现在以下几个方面:基于知识元数据库,自动生成医学知识,引证和补充百科知识库;基于知识元数据库,从互联网中搜索相关文献,提高网络搜索的查准率;在搜索文献基础上分析文献内容,基于知识元数据库整理相关数据,形成对当前最新研究现状的总结、述评以及趋势预测,其系统界面及运行结果如图5所示.

(a)

 

(b)

 

(c)

5应用研究界面

通过以上分析,不难看出本应用示范系统不但可以利用网络资源来辅助更新百科全书,而且也可以利用百科全书的权威内容指导、引领网络资源的开发和利用。

6         结论

任何一种新的组织方法,都不可能是无中生有,而是在传统方法的基础上发展而来的。因此,实现领域Ontology的自动构建,务必是建立在大量公认领域知识的基础之上的。本文利用NLP理论和技术方法,并借助领域专家知识,对已有公认领域知识进行重构利用,建立起受限文本的Ontology自学习机制,实现了领域Ontology概念描述体系的自动构建,有效地解决了领域Ontology自动构建这一瓶颈问题。

参考文献:

[1]        何海芸,袁春风.基于Ontology的领域知识构建技术综述[J].计算机应用研究,2005(3):14-25.

He Haiyun,Yuan Chunfeng . Overview of technology of building domain knowledge based on ontology[J]. Application Research of Computers,2005 (3):14-25.

[2]        唐静.叙词表转换为Ontology的研究[J].情报理论与实践,2004,27(6):642-645.

Tang Jing. Research on transforming thesauri into ontology[J]. Information Studies: Theory & Application,2004,27 (6):642-645.

[3]        唐爱民,真溱,樊静.基于叙词表的领域本体构建研究[J].现代图书情报技术2005(4):1-5.

Tang Aimin,Zhen Zhen,Fan Jing. Thesaurus - based approach to build domain ontology[J]. New Technology of Library and Information Service, 2005(4):1-5.

[4]        高凡,李景.Ontology及其与分类法、主题法的关系[J].图书馆理论与实践,2005(2)44-46.

[5]        常春,卢文林.叙词表编制历史、现状与发展[J].农业图书情报学刊,2002(5)25-28.

[6]        李景,孟连生.构建知识本体方法体系的比较研究[J].现代图书情报技术,2004(7)17-22.

Li Jing,Meng Liansheng. Comparison of seven approaches in constructing ontology[J]. New Technology of Library and Information Service2004(7)17-22.

 

论文PDF

https://blog.sciencenet.cn/blog-5573-28605.html

上一篇:领域Ontology概念描述体系构建方法探析
下一篇:《范跑跑之歌》网络走红 范美忠斥其人身攻击
收藏 IP: .*| 热度|

1 吕鹏辉

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 16:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部