BlueSkyBird的个人博客分享 http://blog.sciencenet.cn/u/BlueSkyBird

博文

零被引研究文献综述--我的第一篇《情报学报》文章 精选

已有 22155 次阅读 2015-5-12 16:35 |个人分类:研究论文|系统分类:论文交流| 意义, 零被引现象, 睡美人现象, 进展零被引率, 演变规律



文章引用目录:胡泽文,武夷山. 零被引研究文献综述[J].情报学报,2015,34(02):213-224



11 胡泽文-零被引研究文献综述.pdf



零被引研究文献综述[1]

    胡泽文1  武夷山2    

1.南京信息工程大学经济管理学院江苏省南京市2100442.中国科学技术信息研究所北京100038

 

摘要 “零被引”或“零认可”是社会各领域中普遍存在的一种现象,只不过大家以前过多关注“高被引”,而忽略了“零被引”。为此,本文首先阐述了零被引研究的背景、意义和进展。然后在反复研读国内外所有零被引及其相关研究文献的基础上,总结出零被引研究的四个重要主题:零被引率、零被引率演变规律及模型、零被引影响因素和零被引应用研究。最后从文献时间演化分析的维度分别评述了这四个主题的发展动态及存在的问题,并针对零被引研究中存在的问题,提出未来的研究展望。此外,本文也简要介绍了与零被引研究密切相关的主题:“睡美人”现象。以期为国内外感兴趣的学者提供了一个关于零被引研究的总体概貌。

关键词   零被引现象 睡美人现象 意义 进展零被引率 演变规律 影响因素  综述

 

1 背景与意义

引用分布分析(Citation distribution analysis)广泛应用于科学信息的过滤,不同组织科研绩效和期刊影响力的定位、比较和评估,是文献计量学、信息计量学和科学计量学的核心研究主题[1]。目前国内外学者已经使用很多数学模型,如幂律分布模型(power-law)[2],对数正态分布模型(log-normal)[3],指数分布模型(exponential distributions)[4],去拟合、验证和比较不同学科领域,不同国家,不同期刊,甚至细化到不同学者的引用分布规律。不幸的是,这些传统引用分布研究主要倾向于关注引用分布曲线上那个代表“高被引论文或最受关注论文”(hits)的头部,而那个代表“低被引论文或暂时无人关注论文”(misses)的长尾部分却很难获得国内外学者的青睐。

零被引是零关注的一个特例。零关注的情形有很多,包括人才的零认可,影片的零观赏(或称零票房),图书的零销量,馆藏文献的零借阅,论文和专利的零被引,等等。其中,“论文零被引”是指“论文零被引现象”,而论文零被引率是指一个百分比,我们将其定义为:一个国家、机构、学科、期刊或个人在某年或某个时间周期内出版的论文集合,在出版后的某一个或几个不同长短的引用时间窗口中未收到任何引用的论文比例。

在科学界,论文零被引现象可能有很多种原因,如论文太平凡而未被引、质量太低而未被引、莫明其妙的未被引、不相关的未被引、有价值但未被发现或被遗忘的未被引、论文出类拔萃而未被引、论文众所周知而未被引、等等[5]。科学计量学之父普赖斯(Price)1965年在《Science》杂志上刊文对1961年之前出版的所有科学论文的零被引率进行了估计。他认为在论文出版后任何给定的引用年内,有大约35%的论文未受到任何引用,在论文出版后10年的引用时间窗口中,有10%的论文从未受到任何引用[6]。“任何学科或任何地方出版的论文中,总会有一些从未受到任何引用的论文”是科学界中普遍接受的事实[7]

尽管有很多论文处于零被引状态,但它们未必没有学术价值,其对科学界的潜在贡献不可小觑。美国《连线》杂志主编Anderson, C在2004年提出,将人们注意力引向各种分布曲线尾部的长尾理论认为,网络科技的兴起,商品的存储和展示空间变得无限大,而存储的成本也变得无限小,消费者可以有无限的选择,传统“二八”定律代表的80%“冷门商品”也有机会受到消费者关注和购买,这促使代表“冷门商品”的长尾部分所产生的效益可以与20%“热门商品”所产生的效益相当[8]。类比一下,这也许预示着代表“低被引论文或暂时无人关注论文”(misses)的长尾部分对科学界的贡献可以与头部所做的贡献相匹配。

零被引论文中也不乏潜在“精品”。我们2014年2月8号完成的调查问卷统计结果显示,182名受调查者中,74.8%不认可“发表十年后仍未被引的论文已经不存在什么价值”这一观点。科学界中的“迟滞承认”现象和“睡美人”[9-10]现象就是指一些重大科学发现和成果在当时未被发现和广泛借鉴(处于低被引或零被引状态),多年后,才被人们重新发现并受到重视和广泛关注。其中最经典的例子是孟德尔发现的遗传定律在豌豆实验论文正式出版34年后,才重新受到认可。在工业界,人们可能会经常阅读和使用科学文献,将科学文献中的有用理论和方法付诸于实践,但他们觉得有用的论文,不一定引用,因为他们不写文章。无论高被引还是零被引文献,只要他们觉得于实际工作有用,这些文献就会被他们经常使用,甚至奉为解决工作中问题的法宝。

此外,大到一个国家、高校和学科,小到一本期刊和一个学者等不同单元文献的零被引率及其差异可以在一定程度上反映文献传播与利用的水平、国家科研交流系统的通畅程度和科学交流环境的优越性,也可以在一定程度上反映科技文献的质量、价值和可读性,学科属性(诸如新-老、理论-应用、单一-交叉、文-理等),国家和高校的科研实力与水平,期刊和个人的学术影响力(国外已有学者验证零被引率与期刊影响因子之间有密切关系)等。因此零被引率可以作为评估不同单元科学交流与传播环境、科技文献质量,以及科研实力与影响力的一个补充指标。通过研究零被引率与科研评价类指标(如期刊评价指标、H指数和高校排名等)之间的相互关系,并基于此构建新的、融合零被引率的科研评价指标,能够推动其在科研评价领域中的应用,拓展科研评价领域的研究范围。另外,论文零被引率演变规律研究对目前科学交流系统推荐功能的设计也有一定的指导作用。众所周知,当前科学交流系统中推荐功能的设计注重向读者推荐高影响力作品,这固然重要,但众多零被引作品中的一些潜在精品,如果能够被读者发现、传播并利用,其对科学界的贡献及意义不逊于前者。论文零被引率演变规律可以清晰地看出哪些国家、高校、机构、个人、学科或期刊等单元论文传播与利用的状况较差?对于那些传播与利用状况不佳的单元,零被引“精品”推荐功能显得尤为重要。通过比较分析“睡美人”文献、“高被引”文献和“零被引”文献在学科属性、收录期刊质量、内容结构和选题、文献长度、收录数据库、基金资助情况、文献作者及其合作情况、参数文献数量及其规范程度等之间的差异,研究“睡美人”和“高被引”文献从零被引到高被引的过程,识别出实现被引“零突破”的关键影响因素,不仅可以据此从零被引文献中识别出潜在的“精品”文献向读者推荐,推动零被引“精品”推荐方法在科学传播领域中的应用,从而防止过多文章处于零被引状态,而且可以为期刊编辑从大量投稿中筛选优质稿件和潜在精品,提高期刊未来影响力提供参考,个体研究人员也能够从中学习到如何提高文章的质量和未来影响力。综上所述,零被引分布规律及其影响因素的研究具有重要理论和实践意义。

零被引研究对情报学科也有重要贡献。比如,零被引是引用分布研究中被忽略的一环,属于文献计量学和科学计量学的研究范畴,而文献计量学和科学计量学是情报学领域的核心研究主题,因此零被引理论框架研究可以极大地丰富和拓展情报学的理论体系。另外,零被引研究涉及到文献及其引用数据的检索、采集、处理与分析,最终形成关于论文零被引率演变规律、影响因素与应用(在科研评价和科学传播领域的应用)的分析报告或论文,可以为科研人员、科学出版商、期刊编辑部等提供富有参考价值的知识或情报,是情报研究与服务提供过程的完整呈现。

当然,我们对部分零被引文献的价值和意义如此重视,并非意在否定高被引文献的价值和意义。事实上,高被引文献的价值和意义已经在学界形成共识,高被引相关评价指标已经获得大量应用。。  

2  国内外零被引研究进展

2.1 国际零被引研究进展

首先通过构建“零被引”研究密切相关的英文检索式[2]主题检索Web of Science的四大索引库[3],得到317篇文献。然后通过阅读所有文献标题、摘要和关键词的方式剔除掉164篇无关文献后(剔除的文献中虽然提到“未被引作品”、“未被引产品”、“未被引药方”、“未被引信息”和“未被引调查”[11-12],但研究内容并非“零被引”主题方面的),获得国际学者自1972年以来,至2013年4月23日期间发表的152篇零被引相关文献,加上1955年和1965年发表的但未在WoS检索到的3篇文献,共计155篇文献。这些文献在各个历史时期的数量分布情况如表1所示。

表1 零被引论文数量按各个历史时期的分布

时期

20世纪50年代

60年代

70年代

80年代

90年代

21世纪初(2000-2013.4.23)

论文数

2

1

4

3

42

103

早在20世纪30年代,就有学者关注过零被引现象,只不过,他们关注的是专利零被引现象[13]。20世纪50年代,论文零被引现象开始受到国际上一些学者的关注。如:Garfield1955)思考了论文零被引现象,这甚至成为他努力促成SCI的初衷[14];美国剑桥大学Aitchison(1955)通过修改标准的对数正态分布函数,使其包含一定比例的零被引论文[15],但由于零被引论文的数量巨大,如果全部包含进去,会严重破坏对数正态分布曲线的形态。不过从这两篇文献的主题和研究内容相关性来看,并不能算作真正意义上的零被引研究。20世纪70年代,国外学者Garfield,E和GHOSH, J.S等发表一系列关于论文零被引现象的启发性文献[16-18],引起国外一些学者开展零被引研究的兴趣,真正意义上开启了零被引研究的时代。20世纪90年代,零被引研究文献开始涌现,发表了42篇文章,是50年代、60年代、70年代和80年代所发文章总量(10篇)的4倍多,增长了367%。这些文献主要聚焦于零被引率,零被引产生原因及其影响因素方面的评述性和实证性研究[19-22],激发了国外学者研究零被引现象的广泛关注和重视。进入21世纪,论文零被引研究不再局限于零被引率的简单统计和零被引影响因素的定性分析,其它主题,如:论文零被引率时间变化模式及演变模型,零被引论文未来被引概率模型,零被引影响因素定量分析开始引起国内外学者的关注。21世纪将是零被引研究的鼎盛期,比如:从2000年到2013年4月23日国外学者已经发表了103篇相关论文,是过去50年所发表论文总和(52篇)的近2倍。

2.2 国内零被引研究进展

国内零被引研究比国外晚了40年,最早开始于20世纪90年代初期中山大学罗式胜在《情报理论与实践》上发表的一篇名为“引证分析的几个计量指标及其应用”论文[23]和中国科学技术信息研究所武夷山在《中国情报信息》杂志上发表的一篇名为“无之为用与情报服务”的短文[24]。罗式胜在论文中提出了相对被引率、未被引论文占有率、高被引论文占有率等指标,并讨论了它们的应用前景。而武夷山在论文中探讨了“无”的用处和意义,他认为:无之功用可谓广矣;“无”是无所不在的,而不注意“无”,就可能犯认识上的错误;无是可以转化为有的;不仅在情报服务中,而且在研究领域中,我们也应充分注意“无”的意义,并且在文章的结尾,他提出这样一个疑问:“未被引用的文献是否有价值?”。

为了对国内零被引研究发展情况有一个全面了解,利用上述英文检索式相应的中文检索式:(TS='零被引' OR TS ='零引用' OR TS ='未被引')主题检索中国知网的五个重要数据库(检索时间:2014.2.6)[4]共得到40篇文献,然后我们通过阅读所有文献标题、摘要和关键词的方式剔除掉3篇无关文献后,发现国内学者自1992年以来,至2013年11月4日共发表37篇零被引相关文献,加上1993年武夷山发表的那篇文献,共计38篇文献。零被引期刊论文数量的年度分布及其在各类数据库中的分布情况如表2所示。

2论文的来源及其年度分布情况

年代

 

来源

1992

1993

1994

1995

1996

-2005

2006

2007

2008

2009

2010

2011

2012

2013

.11.4

A

1

1

0

1

0

 

 

2

2

1

5

10

10

B

 

 

 

 

 

 

 

 

 

 

 

 

 

C

 

 

 

 

 

 

 

 

 

1

 

 

1

D

 

 

 

 

 

 

 

1

 

 

 

 

 

E

 

 

 

 

 

1

 

 

 

1

 

 

 

总量

1

1

0

1

0

1

0

3

2

3

5

10

11

从表2可以看出,20世纪90年代初(1992-1995),尽管出现三篇零被引方面的启发性研究文献[23-24, 25],但在此后很长一段时间,该论题未引起国内学者的注意,比如在1996年至2005年10年期间并未出现零被引方面的研究文献。直至2006年,解放日报刊发的一篇关于零被引的报道[26]再次引起国内学者的广泛关注和重视,从2006年一直到2013.11.4期间共发表35篇零被引相关的论文,是1992年至2005年14年期间所发论文总量(3篇)的近12倍,增长了1067%。此外,在已发表的38篇零被引相关文章中,有33篇是期刊论文,2篇是仅仅点到论文零被引率的硕士论文,1篇是已经发表在期刊上的国内会议论文,另外2篇是零被引方面的新闻报道文章。由此可以看出,尽管零被引已经成为国内学者的重要研究主题,但还远未成为国内硕士生和博士生的主要开题方向,并且零被引方面的会议和媒体交流还比较少。

3 零被引各类主题的发展动态及其存在的问题

零被引现象研究发展至今,已产生近200篇相关论文,然而关于国内外零被引研究综述的文献非常少。国内仅发现2013年朱梦皎和武夷山在《情报理论与实践》上面发表一篇名为“零被引现象:文献综述”的论文[27]。论文简要介绍了零被引现象研究的两个重要阶段:探讨阶段和建模定量阶段,并简要探讨了零被引及其相关的研究内容,以及零被引研究存在的问题,但作者对零被引研究的内容界定及其分类不是太清晰,对零被引意义和进展的分析较少,同时对各类主题发展动态及存在问题的分析不够系统深入。

因此,我们通过仔细研读国际155篇和国内38篇零被引研究文献的标题、摘要和关键词,以及部分论文的全文,将国内外零被引方面的研究成果分类为四个重要主题:

3.1 零被引率研究

零被引率指零被引论文数量占论文总量的比例。继1965科学计量学之父普赖斯(Price)对所有科学论文零被引率做出估计之后,Abt(1981)估计出天文学领域(Astronomy)期刊1961年出版的论文在出版后20年仍有6.1%的零被引论文[28]Garfield(1983)估计出国际25本顶级期刊1978年出版的研究型和综述型论文在出版后五年期间(1978-1982)的论文零被引率是3.9%[29]。Koenig (1983)测算出药学(Pharmaceut)领域论文在出版后4年的零被引率达到49.9%[30]。Pendlebury(1991)测算出美国科学家所出版论文的零被引率远低于非美国科学家所出版论文的零被引率[31]。此后,Ghosh(1974)、Ghosh(1975)、Kuch(1977)[32]、Lawani(1980)[33]和Peritz(1983)[34]对化学(Chemistry)、交叉学科(Multidisciplinary)、生理学(Physiology)、癌症学(Cancer)和社会学(Sociology)领域论文在发表后6年、8年、7年、5年和9年时间窗口中的零被引率分别进行一个估计,它们的比例分别为0.45%、7.3%、2.1%、5.1%和2.7%。从这些比例的差异可以看出,不同学科领域论文在发表后不同时间窗口中的零被引率各不相同。此外,Klaic(1997)测算出克罗地亚学者1980至1996年期间发表的人类学(anthropology)领域论文在发表后5年时间窗口中的零被引率达到65.4%,不过却低于世界人类学领域高达79.5%的平均水平[35]。Lee(2003)测算出新加坡分子与细胞生物学研究所11.6%的论文零被引率[36]

国内论文零被引率研究最早开始于中山大学罗式胜1992年和1995年关于零被引相关指标的研究。直至2008年,中华儿科杂志社关卫屏和中华医学会杂志社游苏宁对《中华儿科杂志》2005年出版的353篇论文在2005年至2007年10月7日期间的被引情况进行一个统计分析后,发现此杂志有40.5%的论文从未被引用过,其中诊断标准类文章均被引用;论著类文章论文零被引率较低(15.4%);述评和专论类文章的论文零被引率是26.7%;病例报告、临床病例讨论和临床经验交流栏目文章零被引率分别为87.0%、80.0%和29.3%;答疑、争鸣、讨论类文章论文零被引率为80.0%[37]。这篇文章激发了国内学者研究零被引现象的兴趣,在2009年至2012年期间被引用了13次(其中他引11次)。此后,吴雨华(2009)、梁花侠(2010)和李海霞(2012)也分别对图书情报学17种核心期刊论文、西北农林科技大学SCIE论文和馆藏期刊论文的零被引情况进行了估计[38-40]

尽管国内外不同学者对一些学科、期刊和机构论文在发表后某个时间窗口中的论文零被引率进行了一个大概估计,不过我们还未发现相关文献对不同国家、机构、学科、期刊和个人等在不同年代出版的不同类型、内容长度、语种和质量等特征的论文集合在出版后不同引用时间窗口中的论文零被引率进行系统性的分析与比较研究。

3.2零被引率的演变规律及模型研究

零被引率的演变规律主要分为两大类:⑴ 不同国家、机构、学科、期刊和个人等主体不同年代出版的论文集合,在出版后不同引用时间窗口中论文零被引率的时间变化规律研究,以探索不同主体论文在出版后较长引用时间周期内被消化、吸引和利用的规律或模式;⑵不同国家、机构、学科、期刊和个人等主体在不同年代出版的论文,在出版后某个固定引用时间窗口(当年、2年、5年、10年或更长)中论文零被引率的年度变化规律,以探索不同主体生产的科学知识的科学发展节律。  

目前国内外学者对论文零被引率演变规律的研究甚少,通过检索各类期刊数据库和文献阅读浏览,仅发现5篇(截止到2013.11.5)相关文献。国外学者注重对不同引用时间窗口中论文零被引率的变化模式研究。如:Van Dalen &Henkens(2004)考查了人口统计学领域杂志1990-1992年出版的文章在发表后2年、5年和10年引用时间窗口中论文零被引率的变化模式[41]。不过作者选择的时间窗口较短且不连续,对零被引率的演变规律考查较少,并且仅选择一个学科杂志进行分析,不够系统全面,无法代表其它学科情况。

国内学者侧重对固定引用时间窗口中论文零被引率的年度变化规律的研究。如:浙江大学刘涛(2008)[42]统计了国内15所大学1997-2002年所发SCI-E论文在出版后4年时间窗口中论文零被引率的逐年变化,他发现,SCI-E论文零被引率的年度变化总体呈下降趋势,但不太明显。不过他主要考虑6年的变化情况,时间范围过窄,结论说服力不强,这可能也是年度变化趋势下降不明显的原因之一。而董建军(2012)[43]测算了2001年至2010年10年期间出版的国家自然科学基金中文论文在出版后2年时间窗口中零被引率的历年波动情况。结果发现,所选10年较长时间窗口中论文零被引率的历年变化表现出一定的规律,呈现出明显的上升趋势。这说明做论文零被引率历年变化规律研究时,应选择较长时间窗口。不过作者并未与非基金论文和其它语种论文零被引率的历年变化情况进行比较。同时,不足的是,两位作者的研究都未考虑论文在出版后不同引用时间窗口中论文零被引率的变化。此外,上述两项实证结果中,SCI-E论文零被引率的年度变化总体呈下降趋势,而中文论文零被引率的年度变化呈上升趋势,这说明尽管国内论文的产出数量在逐年上升,然而处于无利用状态的零被引成果也愈来愈多。

在论文零被引率演变模型研究方面,国外学者Quentin L. Burrell的相关研究较多。Burrell (2002)[44]提出一系列健壮性较强的混合分布模型,能够涵盖各种情况,包括未被引、首次被引、直至N次被引。早在1985年,Burrell就开始探索和设计一些类似的简单数学函数模型去模拟和研究文献老化情况下图书文献随时间流逝的未来使用模式(或引用模式) (Burrell, 1985, 1986, 1987, 1990, 2001) [45-49]。模型1是Burrell在2001年和2002年提出的λ(Lambda)条件下的泊松分布模型,此模型用于拟合固定文献集合中各类被引频次(包含零被引)文献比例的演变规律。

, for r=0, 1, 2, …        1

模型1是一个附带平均λC(t)的泊松分布模型。公式中Xt=r表示从固定文献集合中随机抽取的一篇文献在出版时刻起,直至时间t(包括时间t)的被引频次。C(t)是一个文献老化分布函数,它反映了文献被引速度最终会下降的事实,t≥0。特别地,如果C(t) = t,模型1将转换成一个附带常数λ的标准泊松分布模型。它的表达式:

, for r=0, 1, 2, …           2

明显地,当r=0 (意为被引频次为零的论文),模型2转换成一个简洁的负指数分布模型,此模型能够用于拟合论文零被引率随时间流逝的变化模式。负指数分布模型的表达式:

                                   3

国内作者在零被引率演变规律方面的研究甚少,最早开始于2014年我们在 Journal of Informetrics[50]上发表的一篇名为“论文零被引率的演变规律—基于六本国际期刊的探索性研究”的论文。论文首先调研了用于模拟文献老化规律或引用时间衰减模式的双参数负指数模型,然后使用标准最小二乘回归分析方法对所选6本期刊1992年论文出版后12个不同引用时间窗口的论文零被引率数据进行拟合实验,发现传统的双参数负指数模型未达到我们的期望,即反映模型拟合效果好坏程度的拟合优度(R2)需达到80%以上。最终我们放弃此模型,定义了一个健壮性和适应性更好的三参数负指数模型用于拟合论文零被引率的演变规律。

3.3零被引影响因素研究

零被引影响因素研究最早开始于1991年美国西顿霍尔大学(Seton Hall University)Richard E. Stern发表的一篇名为“Uncitedness in the Biomedical Literature”的论文,作者通过比较分析354篇文章中被引文章和零被引文章在文章作者数量、标题词数量、关键词数量、参考文献数量、期刊年龄和期刊价格等特征值的平均值之间的差异后发现,参考文献数量对论文能否被引的影响最大,其它特征对其影响较小[51]。不过作者采用的方法过于简单,使用的样本太小,且没有界定被引文章的频次,可能会因被引文章和零被引文章被引频次差异过小而导致结论说服力较弱。此后,Eugene Garfield(1991)认为论文零被引可能因为很多论文尚未被吸引进已存在的知识范式,有些论文的研究内容过于新颖,有些论文可能遭遇延迟承认。另外,参考文献剽窃和其它学术不端行为也会造成零被引论文的出现,不过这些仅是定性的猜测,尚未被实证检验过[52]。RonaldRousseau(1992)发现世界上有很多文档与一个作者的研究工作或多或少有点关系,但作者研究工作中仅能将其中一部分极其相关的文档引用到参考文献列表,他在假设作者能够将与自己研究工作或多或少相关的5%文献放进参考文献列表的前提下,通过贝叶斯概率模型测算出一个作者仅有8%机会被别人引用,而多作者的合作论文有一个100%或33%的机会被包含进参考文献列表中,这或许是您的研究工作未被别人引用的一个简单原因,因此为了增加被别人引用的机会,您需要和别人合作写一些质量非常高的文献或您的运气非常好[53]

近几年,国内外零被引影响因素方面的研究主要集中在论文零被引率与期刊影响因子之间关系的实证。VanLeeuwen & Moed(2005)发现期刊影响因子与期刊论文零被引率之间存在下降的函数关系,两者的皮尔逊相关系数为负0.63[54],这与Grzegorz Racki(2009)的研究结果相近,他得出的两者相关系数是负0.68,相差0.05[55]。Leo Egghe(2008 & 2010)根据洛特卡定理,利用中心极限定理发现了影响因子和零被引指标之间存在一种前凸后凹的水平S形曲线(Horizontal S-shape)数学函数关系[56-57],如图1所示。台湾学者许建文和黄定维(2012)用实证的方法,得出了与Leo Egghe相近的结论[58]

图1 影响因子(IF)与零被引指标(U)之间的S形曲线函数关系

Leo Egghe及其合作伙伴在2011年通过对75 位诺贝尔奖和菲尔兹奖得主的论文及其引用数据进行实证分析后发现:即使对于这个科学精英群体,也有10%以上的论文从未被引用过,这些科学精英的H 指数与其未被引文献量之间存在正向的相关关系,这似乎与通常的观念,即一个人的H指数越高,则他的论文零被引率应该越低,有所不同。不幸的是,作者主要用图表的形式展示这种关系,并未定量化地测算出它们之间关系的大小,并且H指数与零被引文献量的测算时间窗口存在不一致性[59]

国内学者付晓霞等人(2012)基于2000~2009年SCI收录中国科技论文的期刊数据,统计分析了不同影响因子区段期刊文章的零被引数据,发现零被引率并未随期刊IF的增高而降低。此结果似乎与国外学者的实证结果并不一致,这可能由于作者未区分文献类型,零被引时间窗口的界定不清晰,或中外差异(如语言风格、文章阅读和引用人群等)造成的[60]

然而,期刊影响因子只是零被引率的影响因素之一,个人H指数、论文长度和类型、高校规模与排名、国家和机构科研实力、论文出版语言、学科差异、马太效应、学术交流程度、科研合作强度、文章选题、文章质量和总量等都有可能影响论文的零被引率,国内外学者对这些因素的考察较少,还未发现相关研究文献。

在零被引影响因素分析方法层面,简单统计分析的方法居多,而使用影响因素分析模型量化研究零被引与其它因素之间关系的成果甚少。尽管Leo Egghe(2008 & 2010)根据洛特卡定理,利用中心极限定理发现了影响因子和零被引指标之间存在一种前凸后凹的水平S形曲线(Horizontal S-shape)数学函数关系。但无法同时验证零被引指标与其它多个影响因素之间的关系及其与不同影响因素关联程度的大小。因此有必要采取多元回归分析方法[61]来解决这一问题。

3.4零被引应用研究

零被引应用研究主要可以体现在三个方面:⑴ 将零被引率及其演变规律的拟合参数作为一个补充评价指标,应用于科研评价领域;⑵ 改进学术推荐系统,从大量零被引文献中识别出潜在的“睡美人”向读者推荐,推动具有潜在学术价值的零被引文献推荐方法在科学传播领域中的应用;⑶对比分析“零被引”文献与“睡美人”文献和“高被引”文献特征之间的差异,研究“睡美人”和“高被引”文献从零被引到高被引的过程,识别出“零被引”文献的潜在“精品”特质和实现被引“零突破”的关键影响因素,为编辑筛选优质稿件和潜在精品,为科研人员提高作品未来影响力提供依据和参考。在第一个应用研究方面,国外学者已经验证了期刊影响因子与期刊论文零被引率之间存在前凸后凹的水平S形曲线的反向相关函数关系,相关系数在0.6左右,因此在一定程度上,期刊论文零被引率可以作为评价期刊质量和影响的一个反向指标。国内学者刘雪立等人(2011)也利用相关性检验方法验证了科技期刊正向评价指标如影响因子、5年影响因子、基金论文比和h-指数与反向指标--期刊论文零被引率之间的相互关系,发现:影响因子、5年影响因子和h-指数与零被引率之间存在显著的负相关关系,相关系数基本上都达到0.7以上。而基金论文比与零被引率之间相关性非常弱,并建议期刊论文零被引率可以作为学术期刊评价的一个反向指标[62]。不足的是这些研究的样本较少,并且没有充分考虑这些指标测算的时间窗口与零被引率指标测算的时间窗口之间存在范围的不一致性。比如:零被引率指标是基于2000年各期刊所发表论文测算的,而影响因子、5年影响因子、基金论文比和h-指数的数据取自2009年《中国期刊引证报告:扩刊版》(根据作者标注得知),也就是说这些指标基本上是基于各期刊2006年和2007年发表的论文数据计算的,并且经核实,这些指标的数据与2009年引证报告上的数据也存在不一致性。因此作者的结论不具有说服力。Albarrán(2011)等人将论文零被引率作为一个低影响指标对美国、欧盟和其它国家的22个科学领域进行评估,发现评估结果与世界平均被引率和TOP 5%高被引论文的评估结果之间存在反向互补关系,并且经济科研实力越强,零被引率越低[63]。然而,国内外学者对论文零被引率及其演变规律在其它科研评价领域,如不同国家科研实力评估、高校和机构排名、个人学术影响力的评价和图书评价等中的应用研究较少。对于零被引第二个和第三个方面的应用研究,迄今为止,我们还未发现相关研究文章和实际应用案例。

综上所述,国内外零被引相关研究文献较少,理论基础较薄弱,尚未有学者尝试构建零被引研究的理论体系;论文零被引率及其演变规律的研究缺乏系统性和完整性,采取的样本较小且单一,选择的时间窗口较窄且不连续;适用于零被引率演变规律的模型较少且未得到实证检验;零被引影响因素研究主要聚焦于论文零被引率与期刊影响因子之间相互关系的实证检验,不够系统全面,并且很少与其在科研评价领域的实际应用结合起来,同时两者的测算时间窗口存在不一致性和两者之间的影响路径没有明确清晰地界定;对“如何从零被引文献中识别出潜在“精品”,向读者推荐”,以及“如何识别出“零被引”文献的潜在“精品”特质和实现被引“零突破”的关键影响因素,为编辑筛选优质稿件和科研人员提高作品未来影响力提供依据和参考”等方面的应用研究问题,迄今无人提过,当然也就无人回答。

4 “睡美人”现象研究

科学文献中的“睡美人”是指论文在发表后的某个时间窗口中未受到引用或受到较少引用,但此后持续受到很多引用的现象。它是低被引或零被引现象与高被引现象的完美结合体,完整体现了论文被引从低或无到高被引的过程,因此受到国内外学者的青睐。另外,睡美人文献也不是铁板一块:有些是主题和方法较新,暂时未被人们接受、理解或意识到,但后来逐渐被人们关注并引用的睡美人文献;有些是主题和方法不够新颖,自然不被人们关注,但后来由于某些原因该主题或方法成为热点而获得学者关注的睡美人文献,前一类文献似乎更值得我们关注。

通过检索Web of Science数据库和浏览相关文献,我们发现国外“睡美人”现象研究最早开始于1961年美国巴纳德学院Barber发表的一篇关于迟滞发现(resisted discovery)文献,引起国内外学者的广泛兴趣[64],截止到2013年5月16日被引430多次。此后Garfield(1980)[65]& Glanzel(2004) [66]等提出与迟滞发现(resisteddiscovery)术语等同的术语:迟滞承认(delayed recognition),并将其定义为:“科学文献中一些在发表初期未获得欣赏和认可,但后来被认为是重要文献的现象”。此后一段时间,国外学者一直使用这个术语研究“睡美人”现象,直到2004年,Van Raan首次将科学文献中的迟滞承认现象称为睡美人(Sleeping Beauties)现象,并将其定义为:“一个长时间处于未被注意或“睡眠”状态的出版物,然后,几乎是突然地获得很多注意。”这个术语成为国内外学者研究科学文献“睡美人”现象的常用术语。除了提出这个专业术语外,Van Raan也提出了四个指标来测度“睡美人”文献的睡眠深度睡眠长度唤醒强度,并进行一个实证检验,使得“睡美人”也变得可以测度。这六个指标分别是:一个具体时期内平均每年获得至多1个引用(称为深度睡眠),平均每年至多获得1至2个引用(称为轻度睡眠),深度睡眠或轻度睡眠持续的时间(用于测量睡眠长度),睡眠周期之后四年期间平均每年所获引用的数量(用于测量唤醒强度)[67]。此后,Burrell(2005)建立一个随机模型将Van Raan对“睡美人”的定义和测试指标模型化,通过数学方程的形式解释“睡美人”文献的被引过程和预测睡美人文献被唤醒的数量[68]。尽管已经出现很多“睡美人”现象的研究文献,但国外学者对唤醒“睡美人”文献的“王子”研究较少,为解决这个问题,Braun(2010)综合考虑了“睡美人”文献和唤醒“睡美人”文献的“王子”文献,对比分析了两类文献之间的领域分布、被引和共被引情况、参考文献、影响因子和性别等方面的相同点和不同点[69]

到目前为止,国内“睡美人”现象的研究文献非常少。武夷山(2008)以L J Romuns于1986年在《物理学快报》发表的一篇被迟滞承认的超弦理论睡美人论文为例,阐明这样一个观点:“尽管睡美人现象在科学共同体中是发生概率非常小的事件,但图书文献机构不能因此在文献收藏上持短视态度,否则当若干年后发现一篇文献具有较高价值时,可能已经找不到它了。” [70]梁立明2009年通过分析这篇超弦理论睡美人论文的沉睡与唤醒过程,探索和讨论了此文献能够被引唤醒的必然性(如超弦理论的两次革命,使得它尽管沉睡于第一次革命,但在第二次革命中有机会被唤醒)与偶然性因素(如作者发表论文是仍然学术界的一名新秀,导致论文当时发表后处于沉睡状态,但由于论文质量较高,且毗邻科学权威,终被一名王子在第二次超弦理论革命中发现,并得到持续高被引)[71]。2010年武汉大学望俊成和马费成等人从信息生命周期的角度,探讨了造成“睡美人”现象的原因,以及唤醒“睡美人”的策略和管理机制。尽管国内外学者对“睡美人”的概念、产出原因、测度指标、特征、唤醒策略和管理机制等进行了深入研究和探讨,但美中不足的是,探讨“如何从大量零被引或低被引文献中识别出潜在“睡美人”文献并向读者推荐”这一重要问题的研究非常少[72]。幸运的是,2012年和2014年,浙江大学李江通过分析《自然杂志百年:改变科学和世界的21个发现》一书中所列论文引用的年度分布曲线,以及1900-2012年所有诺贝尔科学奖获得者发表并被Web of Science收录的12862篇论文引用的年度分布曲线,共发现六例特殊曲线的“睡美人”文献。此类“睡美人”文献涵盖科学史上经典的“昙花一现”现象和“睡美人”现象。比如:这类文献在发表初始时期并未沉睡,而是在获得大量关注,成为热点之后的若干年里开始被人遗忘,处于半睡半醒状态(“昙花一现”),但不久之后,它的美丽与智慧再次被人发现,引发第二波大量关注和引用,再次成为热点(“睡美人”)[73-74]。2014年,李江在国际高水平期刊Journal of Informetrics发表的另一篇论文,定义了“睡美人”文献的“心跳谱”(heartbeat spectra)概念,并从诺贝尔奖获得者1900至2000年期间发表的58,963论文中发现758篇“睡美人”文献,同时基于基尼系数分析文献“心跳谱”的不均衡性来观察文献成为睡美人的概率或潜力[75]

5 结论与未来研究展望

鉴于国内学者对“零被引现象”的了解较少,我们全面梳理了零被引相关的文献,阐述了零被引研究的意义,从文献时间演化的视角评述了零被引四个重要研究主题的现状、发展动态和存在的问题,并针对存在的问题,提出未来的研究展望:  

⑴ 零被引研究是引用分布研究领域的延伸和拓展,因此非常有必要了解引用分布的理论框架,以便为零被引研究所用。当前零被引方面的研究文献较少,理论基础薄弱。因此我们需要对它们的定义、产生原因、理论模型、知识基础、研究主体、研究方法与工具、研究热点与前沿等进行深入的分析和研究,构建融合引用分布理论的零被引理论框架。

⑵ 零被引比例及其时间演化规律研究缺乏系统性和完整性,采取的样本较小且单一,选择的时间窗口较窄且不连续,提出的时间演化模型未经实证检验。为此,我们应该选择更大的,涉及不同单元(如不同国家和机构等)不同时期出版的文献在一个较长的、连续时间窗口中零被引比例的时间变化规律,并借鉴或改进传统的引用分布模型,或构建新的时间演化模型对它们进行拟合实验。以此在统一的框架中系统性分析不同单元零被引比例的时间演化规律及模型拟合实验的性能。  

⑶ 零被引影响因素研究迄今主要聚集于零被引率与期刊影响因子之间的关系,而对零被引率与其它影响因素,如个人H指数、论文类型、文章质量和理论性强弱、大学排名、国家和机构科研实力、论文出版语言、学术交流程度、科研合作强度、参考文献数量等之间相互关系的考察较少,并且很少学者将零被引研究与其在科研评价领域和学术交流系统中的应用结合起来。因此,未来我们除了重视零被引率与期刊影响因子之间相互关系的系统性检验之外,也应该注重考查零被引率与其它影响因素之间的相互关系,并基于零被引率与科研评价类指标之间的相互关系,构建新的评价指标,推动其在科研评价领域和学术交流系统中的应用。

⑷ 零被引作品中不乏精品,这是一个公认的事实,“长尾”现象和“睡美人”现象可以佐证。如何从零被引作品中识别出这些精品文献,并向读者推荐,是一个值得深入研究的课题,然而当前学术界对这方面的研究几乎没有。因此我们需要比较“睡美人”文献、“高被引”文献与“零被引”文献之间的差异,研究如何从零被引文献中识别出潜在的“睡美人”文献向读者推荐,以防止过多的文献处于“睡眠”状态。





https://blog.sciencenet.cn/blog-458986-889616.html

上一篇:文档语义分类与智能检索研究终结篇 有感而发

25 徐耀 薛宇 苏光松 曹聪 孙学军 戴德昌 杨正瓴 徐庆征 黄永义 赵星 任国玉 陈冬生 杨金波 张磊 李东风 赵凤光 王安良 姚伟 周春雷 蔡庆华 杨思洛 贡金涛 yunmu zjzhaokeqin shenlu

该博文允许注册用户评论 请点击登录 评论 (24 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-7-1 18:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部