j6789的个人博客分享 http://blog.sciencenet.cn/u/j6789

博文

话说论文查重 精选

已有 11731 次阅读 2016-3-26 08:50 |个人分类:科学星辰|系统分类:观点评述| 论文

话说论文查重

周 健


   何谓论文?论文又称学术论文,《中华人民共和国国家标准 UDC 001.81 GB 771387 科学技术报告、学位论文和学术论文的编写格式》指出:学术论文是某一学术课题在实验性、理论性或观测性上具有新的科学研究成果或创新见解和知识的科学记录;或是某种已知原理应用于实际中取得新进展的科学总结,用以提供学术会议上宣读、交流或讨论;或在学术刊物上发表;或作其他用途的书面文件。 孙学军先生的博文介绍,美国国家科学基金会(NSF119日发布报告指出,从2003年到2013年的10年间,科学工程领域学术论文美国年度增加为3.2%,中国为18.9%(按这个趋势估计2015年中国的学术论文数量已经大大超过美国30%)。换句话说,在科学工程领域中国论文的数量已经是世界第一。进入21世纪以来的中国,专业科学技术研究人员、大学教师、大学本科学生和研究生、医生教师等专业技术工作人员,为了应付国家各级主管部门“发表学术论文”的强制要求,不得不投身于撰写发表学术论文的滚滚洪流之中。此后,随着一稿多投、改头换面重复发表、抄袭、剽窃等学术不端行为的屡屡出现,于是相关机构(包括单位和出版管理部门等)便推出了“论文查重”。对于论文查重问题进行一些分析与讨论,对于当今中国学术环境的优化,还是有意义的。

查重的缘起


  《中华人民共和国国家标准 UDC 001.81 GB 771387 科学技术报告、学位论文和学术论文的编写格式》明确规定:学术论文应提供新的科技信息,其内容应有所发现、有所发明、有所创造、有所前进,而不是重复、模仿、抄袭前人的工作。在中国改革开放30年的前半程及其以前的日子里,论文的影响力有限,关心论文的也就是那些专业的或兼职的科学技术研究人员、大学高年级学生、大学教师、学术期刊图书的编辑人员等。对论文审查最为重视的可能就是学术期刊编辑人员了。在那个时代,计算机还未能广泛普及,所以对论文的审查都是编辑人员手工进行的,其方法和效率都欠佳。然而,那个时代却很少发生(不排除未曾发现的可能)论文剽窃、抄袭事件。回头看今天中国的学术环境,却是乱象丛生:一稿多投、抄袭、剽窃时有发生(个别著名科学家也难以幸免),论文枪手生意火红,论文买卖方兴未艾,交钱发表两厢情愿,期刊容量越来越大,期刊出版周期越来越短,套牌期刊伪期刊时有出现。眼下重视发表论文的不仅有作者,还有论文作者单位的层层领导。因为论文不仅与作者的升学、就业、职称、职务、工资奖金休戚相关,还与作者单位圈钱能力的强弱、单位大小官员的政绩优劣有密切联系。而这些政绩又直接影响着官员们的仕途晋升。正因如此,人们才会不惜“斧钺钩叉、刀枪剑戟”,使出浑身解数,不择一切手段,奋不顾身的投入论文发表的世界之中去。在这样的境况下,国家权力部门为了防止论文剽窃、抄袭的现象愈演愈烈而发布了“论文查重”的要求。学术论文编辑人员也需要一个快速的甄别的工具,一些商业公司也瞄准了这个有钱赚的市场而积极开发“论文查重”软件。于是,论文查重便应运而生。

查重的原理


   一般说来,所谓“论文查重”就是利用计算机软件通过对目标论文和某些数据库的论文文本进行比较,判断二者间存在连续相同的文字(包括词)的出现数量。有介绍说中国知网的查重标准是“连续12个中文字相同”,TURNITIN(一款著名的英文查重软件)将“连续5个字相同”作为标准,而且该软件对掐头去尾、前后换位等更高明的抄袭、剽窃现象也一览无余。查重软件计算这个“连续多少个文字相同”的数量在一篇文章中所占比例的大小(也就是一个阀值),并依据管理机构或使用单位的意愿来调整设定这个阀值,这个阀值一般被称着查重率。比如现行规定硕士论文的查重率是15%,超过这个标准就为不合格了。

查重的核心


  讨论查重,首先要弄清查什么“重”?很显然,无论是连续的5个字,还是连续的12个字,如果将论文的表达载体——“文字”作为查重对象,就不太妥当了。其一,存在一定数量相同文字的论文,二者的研究领域可能完全不同。其二,即使是同一领域的两篇研究论文,其研究主题也可能相异。其三,即使是同一研究主题的两篇论文,其研究的切入点、方法、手段都还可能不同。可以理解的是,人们的初衷是为防止论文剽窃、抄袭,将“文字”作为查重对象。然而,如果将“连续的几个字”作为标准就不合理了。当然,值得强调的是学术论文必须遵循著录格式进行文献引用和标注。实际上,论文查重的核心不应该仅仅是“文字”,而应该包括更为重要的元素:“研究结果”。

查重的意义


   一般说来,查重对于防止剽窃、抄袭可能是有意义的。也可能会使学术论文的著录格式中的参考文献引用标准得到更好的应用。但是,仅就现在的“连续的几个字”的标准,某些情况下也可能导致不良的后果。在科学研究中使用他人已经用过的方法、工具,甚至原理、思路的情况比比皆是,因而在论文行文过程中也难免经常用到别人已经用过的字、词、句,这样的情形不难让人理解和接受。也就是说,某些有文字相同而研究结果迥异的论文可能被误杀。另一方面,这样的查重标准,可能会让论文作者要去研究语言、文字学中的造字、造词问题,从而规避查重。这显然有违常识。因而,无论是论文作者、单位的官员、编辑人员、项目评审专家,还是评奖专家,都有必要谨慎对待某些公司紧盯着商业利益的忽悠。国家的各级管理机构和其它单位,更不能草率的制定出相关的政策,去迎合此类忽悠。毫无疑问,仅仅停留在文字查重上的论文查重的意义是非常有限的。

论文的查新


   笔者以为,论文查重应该将“研究结果是否相同”这一重要元素纳入其判定标准之中,并作为核心内容。“研究结果的部分或全部创新”才是论文的核心价值所在,这方面的评价正是情报学、图书馆学的日常工作之一:查新。很显然,没有任何创新的学术论文不仅没有撰写和发表的价值,反而是对社会资源和成本的浪费。然而,如何判断两篇学术论文的这种“研究结果”的实质异同或创新与否,以及如何实现自动化的查询、比较和判断,这确实是一个有待研究的问题。有关这方面的理论探讨、方法学研究、工具的开发等等,都还有待语言文字学家、编辑学者、软件设计人员去做更多的探索。

 

           二0一六年三月二十六日

PS: 本文同时发布于

作者联络:Email:zhou6789@21cn.com




https://blog.sciencenet.cn/blog-1248178-965100.html

上一篇:一封信
下一篇:何处寻觅:学术论文的核心价值
收藏 IP: 119.134.146.*| 热度|

16 吕喆 黄永义 袁海涛 许培扬 文克玲 姬扬 谢平 王玉宝 彭真明 陈苏华 王启云 黄荣彬 赵斌 姚小鸥 zjzhaokeqin JIANHUN

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 09:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部