||
国际上各类数据库采用计算机自动标引、自然语言处理、智能检索技术。文献信息数据表达概念的多样性与复杂性,智能搜索检索技术不可能全面准确地检索到相关信息数据。任何检索系统的检索效率(查全率、查准率)很难做到100% 。检索的问题和要求太多,必须人工干预,分析判断。
智能检索的基础是自动标引,检索效果和效率与标引质量相关。中国知网的中国医院知识仓库(CHKD)的智能标引与检索系统,已经14年了,有词表和标引专家审核数据质量控制,目前的标引质量准确率为96%,智能检索质量很好,但还有些问题需要不断改进。
http://blog.sciencenet.cn/blog-280034-1041208.html
文献的计算机自动标引最大的问题是文本词抽取采用截词的方法,有的词汇会有概念的歧义。 国内的中文计算机辅助标引系统,都有关键词库,将关键词转换成主题词,有的文本词(关键词)转换成主题词后与文献主题概念的含义不同,出现概念歧义。 下面是两个主题词“能力倾向”出现歧义 ...271 次阅读|没有评论
下面的检索问题,我作了解释。
病例检索工具
难以满足医院需求
医疗大数据应用的落地离不开需求、数据和技术三要素,缺一不可。然而,不少医院在大数据应用领域依然非常欠缺,仍处于“小米加步枪”的低级阶段。
医学自然语言处理就是最基本的一个需求,语义理解是医疗大数据的基础技术。一个最简单的例子,查找病例中含“吸烟”既往史的案例,现在结果可能将“不吸烟”的病例也搜索出来,因为“不吸烟”三个字含有“吸烟”这个词语,这就是否定语义的处理不当,所以医学自然语言处理的难点一个是医学术语集与规范化,另一个是医学语言的“语义理解”。
文献中的上中下、大中小、早中晚、前后左右、是否、是非、药物的用量。。。。。。很多概念的限定,很难实现全面准确的检索。更多的是文献信息中的隐含概念,隐性知识也很难检索出来。----许培扬
医学语言的语义理解两方面;病例检索是最为基础性的需求,临床人员希望检索工具能从诊断、手术、用药、检查结果、病例、组学特征中,任意选择检索条件和检索路径,能支持病例文本基于自然语言理解基础上的语义检索,能支持探索式检索,具有高性能,保证响应时间在3秒之内,然而遗憾地是,目前市场上可见的检索工具几乎都达不到要求。
我们希望给医护人员提供一个灵活的检索工具,但是市面上能看到很多互联网企业虽然做了很大努力,可还是没能解决病例检索的问题。比如,对于检索出所有“化疗之后白细胞下降的患者”这一简单要求,很多软件仍无法实现。
治疗前后、手术前后等;白细胞下降,包括白细胞数量指标等的限定自动检索分析很难做到。
病例信息数据非常复杂,利用信息数据的准确性要求 高,不能指望完全依靠计算机检索分析结果,必须由医生专家自己分析,作出判断----许培扬
所以,现在很多基于病例检索的专科专病数据库构建依然靠手工完成。
建立疾病专科数据库,积累病例数据,是每个科室都会自觉去做的事。难以置信地是,科室整理一份科研病例需要的时间是2~3个小时,工作量远超想象。
所以医护人员很难有时间和动力去做病例的收集和整理,虽然目前有不少软件支持,但智能化程度还不够。能否自定义数据内容、以结构化方式抽取病例数据,支持数据的补充录入,能否集中化地处理病例,让患者参与到随访互动中等都是好的电子病历工具的评判标准。
下面是PUBMED数据库智能检索的例子:
检索AIDS 艾滋病
"acquired immunodeficiency syndrome"[MeSH Terms主题词] OR ("acquired"[All Fields全部字段] AND "immunodeficiency"[All Fields] AND "syndrome"[All Fields]) OR "acquired immunodeficiency syndrome"[All Fields] OR "aids"[All Fields]
https://www.ncbi.nlm.nih.gov/pubmed/details?querykey=1
在计算机自动构置的检索策略里包括 "aids"[All Fields],是对的,如果不检索aids,用英文小写aids艾滋病的文献就会漏检。但 aids还有帮助;助手( aid的名词复数 );外援;辅助设备的意思,这些文献检索属于误检。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 16:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社