崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

从文本资源中建立医学本体的方法(节译)

已有 4446 次阅读 2008-9-30 23:15 |个人分类:生物信息学| 文本挖掘, 自然语言处理, 医学信息学, 本体

         医学领域里,人们普遍认可应该通过建立本体来开发无歧义的词表。本研究的目标是帮助肺病学专家对其诊断和治疗活动进行编码,用一个采用专业本体表现医学知识的软件。本文介绍了我们根据从文本中抽取术语建立医学本体的知识工程学的方法。将自然语言处理工具应用于病人出院小结的文本上开发出建立肺病学本体所必需的资源。结果表明,在建立此类本体上,将分布分析和词汇-句法模式结合使用可以达到令人满意的效果。

           引言近10年以来,法国公立医院一直相互交流其医疗活动的信息。对于每一个病人的信息可以通过病人的出院小结加以收集,每个病人的诊断采用国际疾病分类法归类。一般法国的编码过程都是由医生使用医学专业词表手工完成。这些词表是为了帮助医生对常用术语进行编码而编撰的,很明显这些根据词表编撰的编码工具不能准确地满足医生的需要。实际上,词表中存在着词汇含义模糊,词汇不全面等问题,其一致性和完整性的维护也是个问题。更严重的是,部分地由于词表的含义模糊性,编码上的不一致也成为众所周知的问题。因此,有文献提出自动化编码任务需要对医学条目的概念化组织,即把这些条目的含义应当写进本体内模型结构之中。本体就是一种正规的结构,其目标就是通过基本元素、概念,及其定义和相互关系的组织来表示特定的知识领域。我们认为开发本体资源会有助于开发高效能、可信度高的高级编码工具。目标我们认为,应当根据本体开发的目标来设计分类体系结果的分类标准。我们注意到目前还没有涵盖了肺病领域法语编码过程的本体。本研究的目标就是建立一个这样的本体。关于建立本体方法的报道很多,但是很少有详细介绍概念化的步骤的,就是获取和组织概念及其关系的过程。我们研究的主要限制是需要由知识工程师而不是直接由医生建立本体。对于知识工程师而言,主要的问题是辨别和分类某一领域的概念。我们应用了一种由文本驱动的方法并将文本报告作为信息的主要资源。用自然语言处理工具来分析语料。本文所采用的方法是以差异性语义规则(differential semantics principles)为基础的。我们研究的主要假设就是联合使用如下两种方法可以提高建立本体的效率:1)用分布分析来建立术语表资源的方法;2)观察那些表现所需要的关系的语料中的句子来识别语义关系的方法。首先,本文介绍了本研究中使用的材料和工具,然后在方法部分详细介绍了建立本体的各个步骤,结果部分介绍了对本体评价的统计学测量,本体专业覆盖面及其在辅助编码上的使用。最后,通过讨论本研究的收获得出作出结论。

http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1839277&blobtype=pdf



https://blog.sciencenet.cn/blog-82196-41011.html


下一篇:GEO:基因表达大棚车(Gene Expression Omnibus)
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 01:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部