单汉字主题词自动标引和文献检索的概念歧义问题
已有 3170 次阅读
2011-11-29 09:10
|个人分类:信息检索|系统分类:科研笔记|
数据库, 余秋雨, 关键词, 主题词, 语料库
许博主原创博文
单汉字主题词的自动标引和文献检索的歧义问题
目前,国内文献数据库大多数采用大型汉字词库(语料库)从文献题目和摘要中截词、抽词的方法,将这些关键词转换成主题词,实现数据库的主题词检索功能。复合概念的主题词,一般不会出现概念的歧义,但单汉字就容易产生概念的歧义,比如用主题词“雨”去截词,就会将“谷雨”、“余秋雨”等等词截出来,这就是歧义。
我的看法是,应该根据单汉字主题词的文献量,如果文献很少,就不要用这个主题词,比如在中国知网的CHKD数据库中的主题词钨(14篇文献),文献量不大,不必采用这个主题词自动标引和检索,直接采用关键词检索就可以了。
其他文字的单词也有概念歧义的问题,比如“AIDS”,医学指艾滋病的缩写,但AIDS还指辅助器,拐杖的意思。文献检索的查全与查准,不是单靠标引的,还有词表、检索用词、检索策略互相配合才行。特别是采用主题词与关键词互相配合,限定主题概念,排除非相关的概念的方法。
目前,很多信息检索系统和平台,采用智能检索,有更强大的词库、词表、本体语言、语义网络支持检索,并可以对检索结果进行过滤,尽量减少概念的歧义和误检,来保证检索效率和效果。
有很多这样的实例,与大家讨论。
https://blog.sciencenet.cn/blog-280034-512768.html
上一篇:
什么是文化?下一篇:
何院士深夜来访,我深表感谢!