||
信息抽取是指在非结构化的自然语言文本中定位相应的结构化数据单元,从而使自由文本数据成为相应的结构化数据,它是文本挖掘的前期步骤和基础。
信息抽取的一个基本应用是识别文本中出现的概念,这是许多研究项目的基础。例如一个系统要在文献中确定基因与蛋白质的相互作用,首先该系统要判定哪些词表示基因,那些代表蛋白质。一个有效的系统必须能够扫描文档,并提取出相关的概念。
最早开展识别文档中的蛋白质名称研究的是Fukuda。他开发了基于规则的系统PROPER(PROtein Proper-noun phrase Extracting Rules),该系统通过分析词的上下文、词的语法属性、词串自身的特点(如出现大写字母,数字和精确蛋白质名称的特殊后缀等)来判定该词是否是蛋白质名称。这种在生物医学文献中提取蛋白质名称的方法不需要预先准备特定的词典,不受名称是已知的还是新定义的影响,而且不受判别对象是单词还是词组的限制。这种方法从句子中提取物质名称的准确性比较高。
Hatzivassiloglou采用监督的机器学习方法来判断文档中的词是mRNA、基因、还是蛋白质。他发现朴素贝叶斯分类和决策树算法的效果相似,但是朴素贝叶斯算法的计算强度较低。他们还发现对于数据的前期处理可以影响系统的性能。
相关的研究还有Yuka T等建立了一个以本体论为基础的面向生物学的词表,以此来从文献中识别生物学名称;Collier N等运用隐马尔科夫模型技术从MEDLINE摘要和分子生物学文本中自动提取专有名词;Wilbur W等采用以k-grams训练的贝叶斯分类器来识别化学物质名称,这些改进都进一步提高了物质名称识别的准确度和特异度。
2. 生物医学文本数据挖掘的基础和工具:语义知识表征项目
语义知识表征项目(Semantic Knowledge Representation,SKR)是由美国国立医学图书馆在1998年开始启动的一项科研项目。对文本中所包含知识进行正确表达是真正掌握医学信息的核心。语义知识表征项目的目标是有效而可靠地管理隐含在自然语言文本中的信息。该项目利用美国国立医学图书馆现有的资源,尤其是一体化医学语言系统(UMLS)的知识库和SPECIALIST系统所提供的自然语言处理工具,开发出可以表达生物医学文本的实用程序。
该系统表述文本中的信息的方法可以通过下面的例子说明:
表1 医学文本的语义表达
A |
We used hemofiltration to treat a patient with digoxin overdose complicated by refractory hyperkalemia. |
B |
Hemofiltration-TREATS-Overdose Digoxin-CAUSES-Overdose Overdose-OCCURS_IN-Patients Hyperkalemia-COMPLICATES-Overdose |
A是一段医学文献中的自由文本(我们使用血液过滤方法来治疗难治性高血钾的地高辛过量),B是对文本A中所包含知识的表达。B中所列出的每一个条目称作命题(proposition),每一个命题中大写的谓词(如TREATS、CAUSES等)表示的是个体之间的关系,这种关系都是在UMLS语义网络中所规定的;每一个体也是来自于UMLS超级词表中的规范化的概念。B中的命题的集合组成了对文本A的语义表达,从上面例子可以看出,尽管这种表达并不完全,但是还是把文本中的主要概念及其关系表达出来了。
语义知识表征有下面几个部分组成(如图):
图1 语义知识表征的组成成分
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-5 14:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社