||
作为高校图书馆工作者,信息检索能力是一项重要的职业技能。近期遇到几件事,稍事梳理。
其一,IEL数据库2019-2023年机构产出情况检索。这个数据库是所在机构2021年开始采购的数据库,我在观察其使用情况、机构产出情况、OA论文产出及APC情况。今天发现我2023年10月份做的检索,利用的是高级检索,检索作者单位含本机构名称的情况,这样做的结果是错误的,所得结果远大于实际情况。我与IEL数据库技术支持人员进行了进一步沟通与交流,大致明白了问题所在。检索时,需要在机构名称上加英文双引号,假如用通配符(*)也得注意是英文状态下。好些外文数据库的检索方式是个性化的,在不断调整的,对高级检索的支持情况大不同,对专业检索的支持情况更为复杂。上数据库培训课时,我基本不提。
其二,2023年全球前2%顶尖科学家本机构表现情况检索。斯坦福大学联合爱思唯尔发布的“全球前2%顶尖科学家榜单”,学科办希望了解本机构情况。我花了3个多小时进行检索与分析,并梳理出一份检索报告。想要熟悉其理论与方法,在此基础上获得官方数据(“终身科学影响力榜单”“年度科学影响力”两张excel表,每个文档都是70多M),再进一步检索与分析,最后需要进一步核实并撰写检索报告。工作量真不小。我在做此项工作过程中,实际是边做边求援(向相关方面咨询),因此算是效率比较高的。后来学科办提进一步需求,想了解本省同办学层次高校的情况。需要逐个学校检索,且需要去重(比如有可能有的学者同时在两个表中)。我把数据和方法告诉对方。
其三,利用文心大模型3.5解答咨询。问题是“CSSCI数据库和CNKI总库,在做学科服务中,二者有什么区别?”,给的解答有500字左右,我对这个答案是比较满意的,让我自己解答,我不可能在那么短时间(数秒中)给出那样规整的解答。遗憾的是,其中有一处“硬伤”,给的参考答案中“CSSCI数据库,全称为中国社会科学引文索引数据库,是由教育部和北京大学出版社联合出版的收录中国社会科学期刊论文引用文献的数据库。”,这句更正为“CSSCI数据库,全称为中国社会科学引文索引数据库,是由南京大学中国社会科学研究评价中心研制的中国社会科学期刊论文引用文献的数据库。”,这样更靠谱一些。人工智能语言大模型,近期体验过多次,给我的印象是真的越来越厉害,学习能力很强,但仍存在不足之处,不能“尽信”,比如本节所言的硬伤——似是而非。
简单整理几种关于信息检索的名词术语:(1)广义为“信息存储与检索”。狭义为利用适当的方法或手段从信息集合中查出需要的信息的过程。(《图书馆·情报与文献学名词》,科学出版社,2019)(2)信息检索服务指根据用户检索需求为其提供信息服务的过程。信息检索服务包含“存”和“取”两个基本内容,“存”是指将海量信息进行数字化并存储在高度组织化的数据库系统中的过程;“取”是指根据用户的信息需要,进行快速、高效、准确的查找,并从数据库中获取相关内容资源的过程。(《编辑与出版学名词》,科学出版社,2022)(3)信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。(信息来源:百度百科)
新业态环境下,信息检索的内涵与外延发生了很大的变化。信息组织、信息表示、信息标引、信息载体等在变。过去的受控语言有许多局限性,自然语言更为灵活,还有其他复杂因素干扰(比如“竞价排名”“信息过滤”“信息屏蔽”等)。过去高校图书馆数据库,数量相对很少(数种或数十种),现在越来越多、越分越细。20年前较有影响力的三家中文期刊全文数据库(知网、万方、维普),目前各自生长或成长为数十种甚至数百种数据库(产品或服务)。外文数据库的情况相对更为复杂,相对较为熟悉的是英文,实际还有更多语言。
“不变的是变化”“万变不离其宗”……理是这个理,信息检索能力提升还得“事上练”,活到老,学到老。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-2 21:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社