||
图谋按:《圕人堂话题:数字资源统计标准与规范》(https://blog.sciencenet.cn/blog-213646-1450140.html)发布后,圕人堂群成员图漾老师进行了进一步深入思考与总结,在圕人堂QQ群群文件以pdf文档分享《电子资源访问量统计标准与规范——从麦子老师“何不食肉糜”之问说起》,目前已有302次下载。特此予以编发。文末附上图谋与“老衲曰”微信公众号张丹东先生的交流作为延伸阅读材料供参考。
2024年9月7日,圕人堂群成员 sunny 提出这样一个问题:“王老师,请教您:你们的数据库访问量、下载量等数据也是跟数据商要的吧?自己不能统计是吧?”引发了一些讨论,我接着这个话题扩展几句,sunny 提出的是数据库的访问量和下载量问题,以下讨论都针对这两个数据。
数据库的访问量和下载量统计对于图书馆员来说可谓是 pita,做过的人都深有体会,群里也多次进行讨论。
本地的镜像数据好说,一般会有统计功能,直接在后台进行统计即可,即使数据库不提供统计功能,由于服务器在本地,也可以通过分析日志获得访问数据,
因此这一块的数据是准确且容易获得的。至于远程的数据库,由于服务器无法掌控,要获取访问数据就比较困难了,一般来说可以通过软件和硬件两种方式获取,不过效果都不是特别好。我曾在群里进行总结:以前的软件解决方式就是做一个代理,所有对数据库的访问都经过这个代理,就可以通过用户日志进行分析,但人家如果直接访问数据库,比如保存了地址,不从你这走了,你就分析不到了。硬件的方式是在学校核心交换设备进行监测,这样从学校出口的访问记录都可以被监测,但也有问题,在家的访问无法记录,再说网络中心也未必允许。因此这类数据多数馆采用向数据商索取的方式。
但是数据商提供的数据也会有问题,其一就是作假,有的数据商为了使自己的访问数据好看,避免来年被停订,可能会提供虚假的数据;其二,更常见的情况就是统计口径不一致,以致于不同数据商提供的访问数据没有可比性。举个例子,图书馆需要的,也就是各统计平台需要的一般是这几个数据:访问量、下载量、检索量,但这些概念并没有严格界定,比如:
访问量如何计算,究竟是点击一个页面算一次访问,还是检索一次算一次访问,还是建立一个会话算一次访问?
下载量,有的平台只提供整本下载,有的平台把一篇文章或一本书拆成若干章节下载,这时候下载量算一个还是多个?
浏览全文但不下载,这是算访问还是下载?
同一个人刷新 10 次页面,是算 10 个访问量还是 1 个?
通过发现系统进行检索如何计算访问量?
通过文本挖掘工具进行的访问量如何计算?
不同类型的资源使用量如何统计?
………
类似很多问题,如果不界定好基本的计算方法,那么各数据商提供的数据即使是真的,也没有可比性,把这些访问量简单相加得到的数字也就没有任何意义。我就遇到过一个极端情况,一个数据商提供的访问量比其他数据商访问量之和还多出几个量级,我相信那个数据商未必造假,只不过它为了数字好看,可能把用户的每一次操作都当成一次访问计算。
这个问题不仅困扰着我国的图书馆员,国外的出版商、图书馆员也一直为此事头疼,直到 2000-2001 年,牛津大学出版社的理查德·格迪(Richard Gedye)发起了 COUNTER(Counting Online Usage of Networked Electronic Resources)项目,建立了规范框架及实施推广流程,集成了在线期刊、数据库、在线图书及多媒体内容等电子资源的使用统计规范,数据商以 counter 报告的形式进行发布。这种模式下,数据商造假的难度增加,造假收益降低,最重要的,它对于资源的访问统计进行了规范,使得不同数据商的访问数据有了统一的标准。
如何获取 COUNTER 报告呢?一般有这么几种方式:
(1)大部分国外电子资源提供商(如 JSTOR、Springer、Elsevier、ProQuest 等)都支持 COUNTER 5(最新版本)报告,可以登录他们的网站获取,比 如 springer 的 登 录 界 面 在 这里: Librarian Portal - login (springernature.com) ,当然需要馆员的账号密码。
(2)多数国外数据商支持 SUSHI(Standardized Usage Statistics Harvesting Initiative)协议,可通过该协议从数据商处获取 COUNTER 使用统计报告。比如这里是springer 的接口: GitHub - springernature/sushi: Documentation for the SpringerNature SUSHI service,当然,事先需要授权,获得账号和 apikey 等信息。
(3) 一些 lsp,比如 Exlibris 的 ALMA,OCLC 的 WMS(这个好像没有国内用户),国内的超星等系统(我估计下一代的 lsp 都有)通常内置 SUSHI 客户端,配置好之后可以自动抓取 COUNTER 报告数据。
可见,现在对于国外的图书馆员来说,获取准确、标准的访问数据并不成问题,因此才有麦子老师“何不食肉糜”之问:“我很好奇有人自己做这个事情的吗?@图谋 另外,中国有没有类似 COUNTER 的标准。对了,我们是把提供这类数据写入合同的。”
对于国内图书馆员来说,一个坏消息就是几乎没有什么中文数据库支持counter 报告, 这 里 是 支 持 counter 的 数据商 列 表 COUNTER Registry (countermetrics.org)(https://registry.countermetrics.org/),来自中国的除了 cnki 之外,还有中国化学学会、中国医学学会等寥寥几家,也就是说绝大多数中文数据库不提供 counter 报告,中文数据库的访问统计还得用以前的传统方式。
中国有没有类似 COUNTER 的标准?我的答案是我没见到。2021 年熊霞,高凡,李睦,等发表的《高校图书馆电子资源统计指标体系设计与构建》中写道:“目前,绝大部分引进的外文电子资源都可以提供符合 COUNTER 规范的使用统计报告,但中文电子资源暂时还无法遵循 COUNTER 规范,国内也没有一套通用的电子资源使用统计标准,中文数据库商只能提供符合自己系统和资源特点的使用统计数据,个别数据库甚至无法提供使用数据。”假如和 counter 的实施规范(COUNTER Code of Practice Release 5.1 — COUNTER Code of Practice Release 5 5.1 documentation (countermetrics.org))(https://cop5.countermetrics.org/en/5.1/)进行一下对比,就能发现,这不是一个东西。麦子老师对此的评价是:“你这是‘正能量’的说法(图谋注:指图谋在交流中说的“这些年,我国公共图书馆领域标准规范建设取得了很大进步。高校图书馆领域,高校图书馆数字资源联盟(DRAA)‘洋为中用’方面做了大量工作,引进数据库的使用统计较以往有较大进步。相关理论与实践有待进一步凝心聚力,同频共振,更有利于事业发展。”),我觉得这事现在的可能比图情加门槛都要难很多。我其实是学了一周COUNTER, 隔壁的小姑娘弄得很清楚,但我发现实在太复杂,里面的数据采集点太多,另外就是有很多大小的层次。所以,个别图书馆如果自己做,工作量大不说,数据可能也不行。”
二十几年前,国外的同行还和我们一样为数据库访问量统计所困扰,现在二十多年过去了,当我们多数的馆还在东拼西凑这个数据之时,国外馆员已经不把此事当成问题,因为都已经自动获取了。当然,其中有很多因素,值得重视的是麦子老师的这句话:“对了,我们是把提供这类数据写入合同的。”图书馆的推动力量不可小视。如果我们无视问题,继续“正能量”,那么不知何时才能推进中文数据库提供标准报告。麦子老师将各馆自己统计的访问量描述为数据质量差,其实岂止是数据质量差,而是乱成一锅粥,这个粥不是八宝粥,而是小米、黑豆、红枣、薏米仁、韭菜花、可乐、豆汁、咖啡、腐乳混在一起熬的五味杂陈粥。
延伸阅读:
图谋与“老衲曰”微信公众号张丹东先生的交流
(2024年9月11日)
图谋:关于数字资源统计标准与规范,我看到您转发并评论“关心统计的高校不多,大部分应该都解决了,采购公司产品,部署后可以自己统计,统一标准。”(图谋注:指“老衲曰”微信公众号转发(见:https://mp.weixin.qq.com/s/Y51dXyC6PK0LoLugOhjlkQ)并在“电子资源大数据联盟”微信群分享。)
这块的问题,实际很复杂。仍然处于各行其是的阶段。公司研发的产品,更多的是作为辅助或参考。圕人堂有一位同行做了进一步的分享,有一定参考价值。那位老师是**大学图书馆技术部负责人。他的观察与思考是比较深入的。我自身具体做数字资源采访工作,其中的复杂性有进一步的感知与认知。数字资源统计,有两个焦点:一是资产(资源量)的统计;二是使用统计(绩效评价参考)。资源越多的馆越头大。
有关数字牵涉到许多方面。比如:(1)高基报表的信息化统计,有关数字每年增减10%要另附说明;(2)有些外文数据库与使用量密切相关,比如IEL,直接依据全文下载量定用户等级(这个数据是以官方提供的为准)。(3)有关统计数字,不能光看数字,还涉及许多因素,举个例子,有的数据库使用量低,但他的作用大(比如计算数据量的时候)。以我校情况为例,EBSCO数据库使用量较低,但他的外文期刊种数及册数数字大(很有用)。我接触的中文数据库中,中国知网的使用统计模块做的比较好,但挺复杂的。每个学校购买的产品服务大不同,使用效果也大不同。
张丹东:确实如此。我们是在2019年上了系统,用了一段时间调整数据库上了平台,用户要认证才能使用,平台可以统计一些基本数据,因为标准统一,方便做对比。我在的时候,尚未实现所有数据库都要求用平台,问题也比较多,我们有大大小小三百多个数据库产品。总是被数据库停用的是最先上线了,用平台限制单个用户下载量,问题得到明显控制。我在的时候大约有半数左右数据库是必须用平台才能访问了。还有不少是不用平台也能访问的。原来考虑过建立一个统一的标准,后来发现大家想法不一,也不肯公开相关数据,数据库商也是各行其是,于是就各自为政吧,各自买系统,想怎么统计就怎么统计,有统计总是胜过没有。
图谋:有的高校要求数据库入国有资产系统,苦不堪言。数据库的计量方法五花八门,内容在不断变化(比如有的期刊,版权没谈拢,中止了,有的是新谈的增加了)。不肯公开相关数据,跟营销模式(商业机密)有关,还有连带影响。好些数据库是一校一价(办学层次不同、区域不同、师生数量不同),使用成本大不同。还有一种情况,有的学校为了引进人才、建设重点实验室、建设博硕士学位点等,花大钱买昂贵的数据库。单看使用量可能觉得不合算,但是综合权衡可能是值得的(比如取得了政绩或得到其他利益)。我在圕人堂组织策划专题讨论话题,重心:一是宣传与推广相关标准规范,二是促进相关实务的工作效率与工作质量。
张丹东:嗯,复杂。您的推动有意义。
图谋:那些信息对具体做相关工作的会很有帮助。
张丹东:是的,我的意思是,大多数人和图书馆不关心。200-300图书馆,每个馆三五个可能关心一下。
图谋:我自己就是具体做相关工作的,每年要花不少时间和精力,通过边讨论边梳理,我自己也受益匪浅。我们许多工作一次次从头开始、甚至从零开始。无可奈何的事情。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 00:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社