|
说明:本博客与微信公众号“林墨”同步更新,所有内容均为原创,可授权转载请扫码关注“林墨”公众号。
在论文中,复制已公开的论文段落(文本重复使用),并不必然构成学术不端,例如,将会议论文扩展成期刊论文,将已发表的期刊论文组合成学位论文等等。PNAS上的一篇论文发现,文本重复使用的程度与学术影响力之间呈负相关关系。
编译作者:闵超 / 南京大学 原文作者:DanielT. Citron & Paul Ginsparg
素材来源:PNAS 图文编辑:李江 / 浙江大学
注:图片来源于参考文献中的论文(图中两位“重复使用”方式完全不同的作者,作者A的文本重叠较少,作者B的文本重叠较多)
“文本重复使用”是指学者重复使用自己或者别人论文中的文字的现象。轻者是对以往研究的引用与拓展,重者可能构成抄袭、剽窃或学术不端。作为全球著名预印本网站arXiv.org的创始人,康奈尔大学教授Paul Ginsparg与同事对1991年至2012年间arXiv.org所有论文的“文本重复使用”情况进行了系统分析。
arXiv包含了来自物理学、数学、计算机科学等领域的学者在论文发表前预先公开的预印版本。arXiv在1991-2012年间一共收录了757,000篇论文。作者利用k-gram(k=7)对这些论文的全文进行切割。这样,每一篇论文都被分割成细小的部分,然后存储到计算机主存中以便快速查找。对于典型的文本重叠来说,重复的单词数量大约是这些重叠的7-gram数量的6-7倍。例如,两篇含有100个重叠7-gram的论文被视为拥有大约35个相同的句子。
文本重复使用的类型
根据重复的严重程度,作者将“文本重复使用”划分为三种类型:
· 共同作者(common author,AU),即一对重叠论文拥有至少一位相同的作者;
· 引用(cited,CI),没有共同作者但是其中一篇论文引用了另一篇论文;
· 未引用(uncited,UN),既没有共同作者也没有引用关系。
对arXiv上757,000篇论文的两两配对分析显示,有共同作者的文本重复使用案例数量大约比引用的案例数量大一个数量级,比未引用的案例数量大两个数量级。整体看来,文本重复使用的现象似乎并不少见,例如,在有共同作者的情况下,大约有10万对论文之间共有的7-gram超过100个,有3000对论文之间共有的7-gram超过1000个。
研究进一步发现,综述性的文献比非综述性的文献更多地重复使用了其他文献的文字。如此频繁的文本重复使用的原因很多,有一些是可以接受的,例如,物理学领域的学位论文,常常由先前发表的研究整合而成;一些期刊也接受根据会议论文拓展而来的投稿。当然,不在上述情况之列的文本重用已经成为一种不可忽视的现象。
重复使用文本的学者只是少数
作者发现,文本重复使用的行为主要发生在少数学者身上,即小部分的学者有大量的文本重复使用行为,而大部分的学者很少或偶尔在论文中重复使用其他文本。
文本重叠网络可以对不同作者的文本重复使用模式进行可视化展现。上图展示了两位拥有截然不同的文本重复使用模式的作者。在网络中,每一个节点代表一篇论文,节点之间的边表示两篇论文共有7-gram的情况,其中蓝边表示作者重复使用自己的论文,绿边表示引用他人的论文,红边则表示并未引用而直接使用他人的文本。
可以看到,作者A在217篇署名的论文中只有很少的重叠,而作者B的重叠网络则密集得多。上图表明,尽管通过快速复制之前的研究内容可以产出大量论文,但是,不通过这种方式,同样可以成为一个高产的学者,例如A。当然,并非有所的高产学者都是“文本重复使用者”,而那些经常重复使用其他文本的人也并不都如B那样高产。
文本重复使用的负面影响
文本重复使用的程度,可以用一篇论文中重叠的7-gram数量除以7-gram的总数来表示。学术影响力则可以用论文的被引次数来间接衡量。结果发现:文本重复使用程度较低的论文在被引次数上表现出较大的变化范围,而文本重复使用程度较高的论文的被引次数在低值范围徘徊。也就是说,与重复使用程度高的论文相比,重复使用程度低的论文更有可能获得较大的学术影响力。这说明,文本重用的程度与学术影响力呈负相关,因此,是否重复使用其他文本,可以成为一篇论文自身质量的标签:含有大量非原创内容的论文较少被他人引用。
另外,文本重复使用过程中,学术不端的边界尚且模糊,如何设置人性化、科学化的标准来规范文本重复使用行为,值得进一步关注。
Citron,D. T., & Ginsparg, P. (2015). Patterns of textreuse in a scientificcorpus. Proceedings of the National Academy of Sciences,112(1), 25-30.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-15 17:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社