||
德国学者用统计模型预测论文的未来被引次数
武夷山
Scientometrics(科学计量学)杂志2025年总第130卷11期(11月出版)发表德国比勒菲尔德大学数理经济学研究中心科研助理Michael Balzer(他拥有哥廷根大学的应用统计学硕士学位)和同一研究中心的 Adhen Benlahlou博士合著的文章,Mitigating consequences of prestige in citations of publications(减轻论文引用中的声望影响)。原文见https://link.springer.com/article/10.1007/s11192-025-05455-3。 请DS翻译了该文摘要,我修改。
摘要
对于许多公共科研机构而言,资助科学创造和最大化科学产出是其核心关注点。通常,在评估科研产出以决定是否资助时,引用次数被用作衡量标准,但这些引用受到科学影响力以外因素的严重影响。本研究旨在探讨引用中的马太效应所带来的后果,即知名作者撰写的论文和权威期刊发表的论文往往获得更多引用,不管这些论文的科学内容如何。为此,本研究提出了几个统计模型,仅基于双盲同行评审流程的稿件提交阶段可观测的特征来预测论文的引用量。本文综合采用了经典线性模型和广义线性模型,针对基于PubMed数据库的大规模生物医学论文数据集进行分析,结果表明,仅依靠论文自身的可观测特征(也就是说排除了作者信息和期刊信息)即可对论文的未来引用量进行相当准确的预测,从而减轻马太效应。因此,本研究对科学计量学领域具有重要启示,提供了一种更客观的引用预测方法。该方法依赖于论文发表前的变量,不受作者名声和期刊名望的影响,从而提升了评估过程的客观性。我们的方法对于有关政府机构尤为重要,因为这些机构应该负责对高质量科学内容之创建进行资助,而不是将人和刊的声望效应持久化。
本研究采用了以下变量:
MeSH术语的数量;
MeSH术语占比;
标题长度(单词的个数);
参考文献篇数;
参考文献的平均年龄(年);
文章长度(页数);
在生物医学三角中的位置;
发表年份;
文章语言的层级(英语为1级,英语或其他语言的双语为2级,其他语言为3级);
是否临床研究论文;
是否研究论文;
是否开放获取论文;
出版类型。
本文提出的统计模型中的系数都具有显著意义。具体而言,参考文献数量、医学主题词(MeSH)术语数量以及论文篇幅均对加权引用次数产生显著正向影响。例如,在保持其他变量不变的情况下,对于平均参考文献数量较多的论文,其参考文献数量每增加1%,加权引用次数将相应增长0.722%。相反,对于参考文献较少的论文,在控制其他变量的条件下,每增加一篇参考文献,加权引用次数平均可提升0.722次。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-8 21:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社