数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

学术记录与灰色文献之间的鸿沟

已有 1864 次阅读 2023-4-15 11:55 |个人分类:STM出版|系统分类:海外观察

引用本文请注明出处

作者:Toby Green            译者:刘蓁     校译:李静涵

来源:https://www.researchinformation.info/feature/chasm-between-scholarly-record-and-grey-literature

 

在过去的1015年里,学术传播领域的并购故事被一系列引人注目的垂直收购所主导,这些垂直收购由出版商、内容聚合商和数据库提供商实施,以此扩大自己的服务范围。这些合并模糊了传统角色间的界限,反映了企业由传统参与者转变为更广泛的分析和工作流服务提供商的战略。

今年1月,9家机构适时发布了新的研究报告,以期影响达沃斯世界经济论坛(World Economic Forum)上政治和商业领袖的讨论。9份报告中有3份分享了关于全球风险、税收和信托的调查结果,引起了媒体的广泛关注。但这些报告都无法通过出版商获得。它们之所以重要,不仅是因为它们的影响,还因为它们只是越来越多的高价值研究的冰山一角,这些研究只是被发布,而不是出版。正因如此,越来越多重要的研究从学术记录中缺失了。

 

我们怎么走到这一步的?

2012年,随着用户授权的Web 2.0大行其道,纽约大学教授、互联网专家Clay Shirky发表了著名的评论:出版正在消失。因为……公开一些东西的难度、复杂性和成本都令人难以置信。出版不再是一份工作,而是一个按钮。有一个写着发布的按钮,当你按下它,出版的流程就完成了。所以,我们之所以走到这一步,一定程度上是因为自助出版变得容易了。

然而,作家兼评论家Robert Ebert1998年就预见到了用按动按钮取代出版的后果之一。他写道:在网上做研究就像使用一个由拾荒者零零碎碎拼凑起来的、每晚都遭到破坏的图书馆。为了发现最好的思想,你必须在一个由错误的思想家、非思想家、真正的信徒、煽动者、零售商和空闲时间太多的青少年组成的宇宙中穿梭。找到你要找的东西并收藏起来,但是当你回来的时候,很有可能会发现这个网站已经被移动到新地址,或者已经关闭了。

这是因为Shirky忘了说,除了发布按钮外,还有一个删除按钮,当你按下按钮,一切都消失了。按下删除按钮也是采访Shirky的出版者——一个名为发现的博客,在资金用尽后的选择。事实上,如果你收藏了ShirkyEbert的任何一句话,并试图在今天返回该网页,你会发现可怕的“404未知页面警告。

最近的一份报告显示,四分之三的链接会在十年内失效。更令人担忧的是,学术内容中有类似比例的链接会发生漂移,也就是说它们指向的内容已经发生了变化,与最初被引用的版本不同。如果巨人会消失或变形,那么人们很难站在巨人的肩膀上。

当然,Shirky并不是完全正确的,因为出版并没有消失。数以百万计的作者选择让他们的研究成果通过复杂而昂贵的过程转化,出现在在线期刊和电子书集合中。与纸质书籍一样,一旦发布,就没有删除按钮可以取消发布。恰恰相反,图书馆员和出版商会努力确保其持久性:收藏出版物的永久标识符,即使出版商已经倒闭,你也可以相信它仍是一个管理良好、稳定的原始出版物。

即使是在书籍和期刊中没有收录的研究内容,如数据、代码和其他非传统产出,也越来越多地存储在遵循学术记录规范的存储库中。

获奖作家Neil GaimanEbert的宇宙为丛林。在2010年麦克法登纪念演讲前接受采访时,他继续说道:谷歌可以为你找到10万个答案。图书管理员可以帮你找到对的那一个。图书管理员很棒,但如果你能自己从丛林里找到对的答案,那不是同样很棒吗?

显然,对于图书馆员和严肃的读者来说,简单地按下一个按钮并不能完成整个出版过程。更糟糕的是,这意味着知识有两种来源:组织良好的学术记录和灰色文献的丛林,并且两者之间存在没有桥梁连接的巨大鸿沟。

 

那么,为什么出版代表持久,而发布则代表不稳定呢?

学术记录是一个可靠和有信誉的思想被检查、组织、准备发现,然后长期储存的地方,这样学生和研究人员——以及由于开放获取,更广泛的公众——可以可靠地带回他们需要的东西。

出版商、图书馆员,以及越来越多的学术研究社区本身,合作开发这些标准、流程和基础设施,以可靠、安全地获取学术记录的内容。

Shirky认为出版是非常困难、复杂和昂贵的,这是正确的,但即使是他也可能没有想象到,现在数字技术已经释放了如此多的新可能性,比如PIDPersistent Identifier,持久标识符)和机器可读格式的全文(包括补充文本和数据)。

你只需要看看S联盟或者INASPInternational Network for the Availability of Scientific Publications,国际科学出版物供应网络)的期刊出版实践和标准(Journal Publishing Practices and Standards, JPPS)的规定,就会意识到期刊文章的元数据、永久标识符和保存有多少复杂的需求。FAIR原则和Force 11等倡议旨在确保数据和其他非传统产出同样可查找、可访问、可互操作和可重用。现在,学术记录越来越依赖于永久标识符:针对研究人员的ORCIDOpen Researcher and Contributor ID,开放研究者与贡献者身份识别码);针对机构的INSIThe Institute for Science and Technology科学技术研究所)、Ringgold(全球机构统一身份证)、GRIDGlobal Research Identifier Database,全球研究标识符数据库)和RORResearch Organization Registry,研究机构登记表);针对项目的RAiDRisks, Assumptions, Issues, and Dependencies,跟踪项目的风险、假设、问题和依赖关系);针对研究成果和资助金的DOIDigital Object Unique Identifier,数字对象唯一标识符);以及针对资助者的FunderID(资助者身份识别码)。

建立一个即使是对于机器来说内容可查找、可访问、可互操作和可重用的可靠学术记录库并不便宜。这需要技能、时间和精力——有时还需要为服务付费(像ORCIDDOI这样的永久标识符系统不是免费的)。即使按照正确的标准获取内容,这些内容也需要进入图书馆系统、专业发现服务和暗存储系统,这意味着需要与第三方合作伙伴及其平台建立和维护一个专业和技术关系网络。

对于学术记录来说,公开某些东西的难度、复杂性和费用令人难以置信,从开放获取出版商收取的费用中可以看出这一点。主流期刊上每篇文章的成本在2700—4700美元之间。出版一本开放获取的书将花费300013000美元不等。根据Delta Think(成立于2005年的出版咨询公司,致力于研究学术信息交流生态系统中各类组织的创新与发展)的数据,明年OA期刊文章的市场规模将达到24亿美元左右,相比2021年的16亿美元增长50%。但这是值得的。最近的一份报告证实,全面采用永久标识符可带来数百万美元的效率收益。

然而Shirky的预测也很中肯。成千上万的研究机构,比如达沃斯论坛的9份报告,都避开了出版商。一些机构,比如IPCCIntergovernmental Panel on Climate Change,联合国政府间气候变化专门委员会),已经放弃了出版。这并不是说他们应该与出版商合作,而是说他们可以效仿经合组织或世界银行等组织,根据学术规范进行自出版。但很少有人这样做。

让我们来探究一下原因。自出版首先是关于控制权。在达沃斯论坛这样的组织展现影响力的场合,控制时机十分关键。对展示的控制对于品牌建设很重要,当涉及到资金争夺时更是至关重要。自出版还使组织与受众直接接触,并生成使用和下载数据:这对于向现有资助者报告和获得新资助者非常重要。

当然,按下按钮比外包给提供全方位服务的出版商更便宜。

然而,按下按钮的组织陷入了我所说的“Shirky陷阱,因为在避开学术出版规范的过程中,他们的内容成为了灰色文献

灰色文献是图书管理员很难收集到的内容,因为它位于学术记录之外,研究人员和学生很难找到。它的内容夹杂在否认事实者、骗人的推销员和名人八卦者的胡思乱想里,这导致许多人认为它没有经过同行评审——事实上,大多数都经过了。然而,最大的问题是,灰色文献有被悄然破坏的危险。

最近,我与一个倡导国际贸易改革的非政府组织进行了交谈。作为他们职责的一部分,他们承担并发表研究成果,并将其发布在他们网站上的图书馆中。不过,我今年早些时候访问的时候,发现图书馆里的每一个链接都失效了。令人震惊的是,他们的通讯经理和网站管理员并没有意识到这一点。这些链接在六个月前重建网站时失效了,没有人有时间去检查。

正如网站管理员解释的那样,他们是一个以传播为主导的组织。他们的首要任务是开展活动,改变有影响力的人的思想和筹款,而不是出版。因此,他们俩都没听说过永久标识符或学术出版商使用的其他标准也就不足为奇了。

他们在1月初为支持一项运动而发布的最新研究报告,吸引了主流媒体和社交媒体的高度关注——这就是我听说它的原因。但到了月底,在主页上它已经被另一项活动取代,现在只能在他们的图书馆里找到——如果你能找到链接的话,因为它深埋在他们的网站里。他们图书馆的链接现在是固定的,但他们的出版物仍然在学术体系之外徘徊,因为他们网站的架构意味着我们无法在我的新项目Policy Commons中索引它们。

这不是孤例。在建立Policy Commons的过程中,我们已经确定了超过2万个自出版组织,并不断发现更多:并非所有的研究都发生在学术界。

以传播为主导的组织往往善于使研究具有影响力和新闻价值,并能让学术界象牙塔之外的受众接触到。他们善于与观众互动,并与记者和社交媒体上有影响力的人建立联系。他们只是不擅长把自己的研究纳入学术记录。

在一个几乎不从销售中收回出版成本、出版资金越来越难以找到的世界里,对于那些作者的职业生涯不依赖于在合适的期刊上发表文章的研究机构来说,按下按钮注定是一个有吸引力的选择。资金短缺、任务驱动型组织的管理重点是赢得头条新闻和影响力,它们将投资于传播者和传播本身,而不是出版商和出版。

 

 “读者硬币的两面

我曾为学术出版商和自出版研究机构工作过,我了解到公开研究有两个方面。一方面,有些事出版商做得很好,但以传播为主导的组织做得不好。另一方面,有些事以传播为主导的组织做得很好,但出版商做得不好。

我相信双方都可以从对方身上学到教训,如果他们这样做,对专业读者和大众读者来说,都会更好——尤其是因为这可以帮助筹集资金,并满足追求更广泛社会投资回报的资助者。

严峻的考验是:你的内容是否为提供给读者做好了充分的准备?读者准备程度可以分为六个部分:

Ø  可发现性:出版商和组织都知道像谷歌这样的公共搜索引擎的SEOSearch Engine Optimization,搜索引擎优化),但是采取了什么步骤来确保内容在专业索引和摘要服务(如Google Scholar)中可被发现?忽略它们,你会错过70%的学术搜索。出版商在这两方面都很擅长。自出版组织则错失了后者。

Ø  读者网络:口碑和推荐是赢得新读者的有力工具。你的内容链接是否出现在读者的电子邮件和在线订阅中?你的内容是否容易在文章、帖子和参考书目中被引用?出版商在保持内容可引用和链接持久有效方面非常熟练。大多数自出版组织对DOI一无所知,所以链接失效很普遍。

Ø  实用性和读者工作流程:同样,出版商在这方面得分很高,因为他们以行业标准的方式获取内容,以适应工作流程工具(他们通常拥有这些工具!),而自出版组织缺乏这方面的知识。更糟糕的是,在以传播为主导的情况下,风格和视觉冲击力优先于实用性。

Ø  可访问性:在这方面,自出版组织做得更好。他们热衷于接触非专业受众,投资于作家、新闻稿、执行摘要、政策简报、信息图表和翻译。出版商在摘要和简介方面做得很好,但非专业受众将难以接受专业术语和学术界枯燥、僵化的格式。

Ø  保护措施:出版商在这方面得分最高,除了使用永久标识符外,他们还确保他们的内容保存在法定存储库和暗存储系统中,如果出版商倒闭了,随时可以解锁。许多自出版组织得到负面评价是因为他们在认为内容已经过时或与最新信息冲突时会主动删除旧内容。很少会向国家图书馆提供副本,也很少会在倒闭后提供持续访问的服务。

Ø  发布和发布后的意识:自出版组织在这方面做得更好。以达沃斯论坛的9份报告为例,新内容发布的时间往往与重大事件同步,以赢得最大程度的关注。经常与记者、博主和有影响力的人接触,会带来重要的主流媒体和社交媒体报道。然而,出版商和自出版机构都倾向于发布后就结束,在发布后很少花钱推广他们的内容,或者在机会出现时考虑重新发布。

1总结了出版商和自出版组织如何为读者准备好他们的内容:每个人都有工作要做。

1.jpg

1 典型出版商出版物(蓝色)和典型自出版组织出版物(红色)的读者准备情况。

对于出版商和他们的作者来说,KudosScholarcySciencePOD等服务正在涌现,帮助他们开发读者准备的红色方面。但是,如何帮助自出版组织发展他们的蓝色方面,以便能够跨越鸿沟与学者接触呢?

考虑到他们的数量,所涉及的报告堆积如山(估计每年有40万份新报告),以及资金的缺乏,我认为必须代表他们做这件事。这就是为什么我们开发了Policy Commons:成为丛林和学术记录之间的桥梁。

通过Policy Commons,我们建立了深入丛林的工具,从值得信赖的自出版组织中查找和索引拥有学术研究质量的内容。一旦找到,我们驯服每个项目,为每个项目创建一个标准元数据记录,以及一个永久标识符。在某些情况下,我们必须创建摘要。为了防止链接失效,我们获取全文的副本并将其放入暗存储系统中。自Policy Commons2021年推出以来,我们已经为超过350万份报告编制了索引并生成了永久的登陆页面,我们的用户可以从全文搜索引擎中受益。我们甚至从PDF中提取表格,以便用户可以将数据导出为csv文件。

我们的下一步是将这些内容注入到学术记录中。我们已经与Google Scholar建立了合作关系,并正在与其他的专业搜索服务进行洽谈。对于图书馆员,我们刚刚使用KBARTKnowledge Bases And Related Tools,知识库及相关工具)为具有完整元数据的书目开发了一个MARCMachine Readable Catalog,机器可读目录)记录提要。

 “驯服并不容易,我不会说每一项内容都像期刊文章或书籍一样精美。这是因为我们处理的出版物,是以非标准方式制作,然后用按钮发布在设计和质量差异很大的网站上。其结果是元数据记录中有相当多的噪音,但我们继续通过改进我们的驯服工具来降低这些噪音。

今年1月,达沃斯论坛的9份报告全部被Policy Commons“驯服,且已在学术记录中占有一席之地,另外还有来自其他29个组织的34344份报告。有一些,比如公平贸易报告,是手工索引的,因为它们对我们的自动化工具来说太困难了。

随着时间的推移和工具的改进,越来越少的报告将在错误的思想家、非思想家、真正的信徒、煽动者、零售商和青少年的思绪中徘徊。有了Policy Commons作为桥梁,研究人员和图书馆员将能够轻松可靠地带回灰色文献,就像它们已经被出版商发布到学术记录中一样。




https://blog.sciencenet.cn/blog-521339-1384322.html

上一篇:在数字化转型时代实现可信、透明、高效的投稿与审稿
下一篇:专著的开放获取来了,但我们准备好了吗?
收藏 IP: 58.48.27.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 13:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部