许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

单汉字主题词自动标引和文献检索的概念歧义问题

已有 2943 次阅读 2011-11-29 09:10 |个人分类:信息检索|系统分类:科研笔记| 数据库, 余秋雨, 关键词, 主题词, 语料库

许博主原创博文
 
单汉字主题词的自动标引和文献检索的歧义问题
 
      目前,国内文献数据库大多数采用大型汉字词库(语料库)从文献题目和摘要中截词、抽词的方法,将这些关键词转换成主题词,实现数据库的主题词检索功能。复合概念的主题词,一般不会出现概念的歧义,但单汉字就容易产生概念的歧义,比如用主题词“雨”去截词,就会将“谷雨”、“余秋雨”等等词截出来,这就是歧义。
      我的看法是,应该根据单汉字主题词的文献量,如果文献很少,就不要用这个主题词,比如在中国知网的CHKD数据库中的主题词钨(14篇文献),文献量不大,不必采用这个主题词自动标引和检索,直接采用关键词检索就可以了。
      其他文字的单词也有概念歧义的问题,比如“AIDS”,医学指艾滋病的缩写,但AIDS还指辅助器,拐杖的意思。文献检索的查全与查准,不是单靠标引的,还有词表、检索用词、检索策略互相配合才行。特别是采用主题词与关键词互相配合,限定主题概念,排除非相关的概念的方法。
      目前,很多信息检索系统和平台,采用智能检索,有更强大的词库、词表、本体语言、语义网络支持检索,并可以对检索结果进行过滤,尽量减少概念的歧义和误检,来保证检索效率和效果。
 
有很多这样的实例,与大家讨论。


https://blog.sciencenet.cn/blog-280034-512768.html

上一篇:什么是文化?
下一篇:何院士深夜来访,我深表感谢!
收藏 IP: 114.255.123.*| 热度|

1 dulizhi95

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 16:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部