zyzhai的个人博客分享 http://blog.sciencenet.cn/u/zyzhai 泥土的芬芳

博文

论文查重软件真是扯淡么? 精选

已有 18844 次阅读 2012-5-15 00:25 |系统分类:观点评述| 标准, 抄袭, 知识产权, 查重软件, 浙大学报英文版

论文查重软件真是扯淡么?

——从科技期刊编辑的视角谈看法

 

翟自洋

 

 

曹广福教授在论文查重软件是否扯淡?中提到,“不要迷信查重软件,我们可以用它来发现疑似抄袭,但要判断是否抄袭,尚需人工的进一步甄别”,作为期刊编辑,我完全赞同。机械地使用查重报告,“喜欢用数字说话,而且只凭数字说话”(吴飞鹏评论),是矫枉过正。博文引起强烈共鸣,大概体现了问题(主要是相似度报告被错误解读)的普遍性和严重性——作者们自觉蒙冤却无从申辩,这份愤慨和无奈,让人唏嘘。使用查重软件是我工作的一部分,这里我以编辑的身份谈谈体会,与科学网的科研人员和编辑同行商榷。

 

曹老师博文以张编辑的《自然》通信文章作引。最早贴出的博文写道,“发表在《科学》的文章……论文70%以上存在抄袭”,近日看,“《科学》”已纠正为“《自然》”,“70%”已改为“31%”——或许曹老师意识到“70%”是记忆偏差,或有热心读者指出数据不实,总之,有错速改,要赞。曹老师博文中提到“31%以上”,《自然》通信文章中,“以上”是没有的——微小错误,无伤大雅。就曹老师对张编辑文章的意见,我提三点看法:

 

其一,“浙江大学学报论文31%以上存在抄袭”,这个说法比较含糊,容易让读者误以为是31%发表的文章,事实上,《自然》文章的标题,写明“31% of submissions”,亦即投稿(在科学网就此话题热火朝天讨论时期,有一篇博文标题赫然是“31%发表的文章……”)。熟悉张编辑的人知道,她是务实、向前看的人,她以五六人的团队承担3份月刊(均被SCI-E收录)的编辑出版工作,团队成员常常是5+2,白加黑,并没有闲情逸致去查此前发表的文章。从字面理解,既然用了软件,假若还有31%发表的文章存在问题,无异于自掌嘴巴(但很多读者和媒体似乎还真这么认为)。因此,指明是投稿,有必要。顺便指出,浙大学报英文版也有相当比例的国外投稿。

 

其二,曹老师的说法,容易让人理解为浙大学报英文版编辑部仅根据相似度比例判定是否抄袭。事实并非如此。分析相似度报告时:排除作者单位、参考文献,等;考虑雷同的对象是他人文章,还是作者或其所在课题组的文章;是否引用文献;高相似段落是否出现在结果、讨论等章节;等等(在遏止学术不端行为 保护科研原创成果一文中,我们总结了五种不规范情形)。对于疑似抄袭,首先得到作者反馈,结合作者意见评判。发现字句抄用,善意引导,并不上纲上线(对于学术规范,我们有些教师也未必有清晰概念,学生常常也是受害者),却绝不熟视无睹;对于蓄意一稿多发等恶性不端行为,则义正词严,入黑名单,甚而反映到所在单位。近日,我们碰巧遇到一例,会议论文扩展,作者有意隐瞒,文字相似度高,主体部分已在会议论文中体现。征询西班牙评审人意见,“definitely not supporting the author’s omission”(绝对不认可作者的隐瞒),文章“add two important points”(增加了重要的两点),有发表价值,但“it is at your discretion”(决定权在编辑)。权衡之下,虽对作者有意隐瞒感到不爽,也完全可以以此为由拒稿,但考虑到他所发表的会议显示度小,决定发表。

 

其三,曹老师认为应区分文字抄袭和论文抄袭,对于文字模仿则不必过于较真。“论文抄袭”的定义似乎并不清晰,我理解曹老师指的是思想、方法、数据等方面的抄袭。但,事实上,无论在欧洲、美国,文字抄袭同样是严重的不端行为。据施一公老师博文,在美国有些机构,连续7个英文单词的雷同(应指未加注引号),原则上即可认定为抄袭(不知我们有没有普遍认可的中文抄袭标准?)。以此衡量,我们的问题是严重呢?还是严重呢?还是严重呢?张编辑的通信文章,标题是《自然》编辑所加,原文只说“unoriginal material”(“unoriginal”所指较为宽泛),但人家编辑认为,抄一句也是抄,故直接在题目中加上“plagiarized”。正如我们说,五十步与百步,本质上没有差别。扪心自问,对于顶尖期刊和一般期刊,大家的写作态度和标准是否有所差别?个人推测,至少在一部分人,并非一视同仁,虽然口头未必承认——学术本在高处,应由精英承担,对学术的敬畏,难道应该有双重标准么?往深处分析,文字意味版权,严肃对待抄袭,实质上体现了对知识产权的敬畏。当前,对知识产权认识不足,保护不力,是很多问题的根源。国家要想真正强大,唯有实行最严格的知识产权保护制度。长痛不如短痛。培养这份敬畏,何不从严肃对待文字抄袭开始呢?个人认为,张编辑与《自然》编辑合力,让大家真正严肃面对这个早已普遍存在却见怪不怪的问题,善莫大焉!

 

论文查重软件是否扯淡?非也。相似度报告让作者感觉被冤枉(虽然“冤枉”并不一定是事实),并非软件的错。正如个别交通警察滥用摄像头,隐蔽拍摄,谋取私利,不能因此归咎于摄像头。既然并非所有人都能自觉遵守交通规则,摄像头就有存在的理由。

 

查重软件生成的相似度报告是中性的,抄袭与否,由人认定。判定文字抄袭,是编辑分内事,专业人员未必能把握文字抄袭的标准,或倾向于对文字抄袭宽容。当然,编辑应具有一定专业常识,如有疑难,应参考专业人员意见,同时结合作者的反馈——有经验的编辑可以通过与作者的沟通明晰自己的判断。参考文献的相似通常可以忽略(Crosscheck提供一选项,“包含/排除文献”,我们一般选“排除”),事实上,据曹老师博文,中山大学并未宣称文献雷同为抄袭。

 

软件对数学公式、插图常常是无能为力的,对于蓄意造假,自然也是爱莫能助。但,根据软件生成的报告,按图索骥,对文字相似度较高的文章作进一步比对分析,或有更多发现。应用数学类文章,从文字的高相似度入手,或可发现公式的抄袭。有些报告给出的相似度比例并不高,但是,比对全文,发现图表有严重雷同。

 

假如没有软件,编辑只好大海捞针,或者瞎猫撞死耗子了——别说,有时还真撞上,且不止一次。透露一个小技巧。在查重软件面世前,我在编辑文章时,把一些令人困惑的中国式个性表达,加引号,拿到Google去搜,有时检索结果就那么几条,基本上就是该作者的文章。一比对,嘿,几乎雷同!重复发表得以在最后时刻避免。虽然偶尔也能逮着,但编辑始终提心吊胆,无助感挥之不去。前几年,编辑们开年会,常常诉说层出不穷防不胜防的重复发表令人头痛不已。现在,这样的场景不多见了。刚刚看到愤怒!审稿遇到一稿多投!,不知编辑部在送审前是否查重?如能在送审前发现问题及时退稿,可以节省曾老师们宝贵时间。

 

无论用于查英文还是中文,无论Crosscheck还是国内的“学术不端行为检测系统”,软件的功效,有赖于背后的全文数据库支撑,同时,应能实时搜索网上的公开资料进行实时比对。工作中遇到一例,Crosscheck未发现异常,但通过上述小技巧,避免一起重复发表(请大家宽心,作者来自国外)。咨询Crosscheck技术人员得知,发表该作者论文的期刊,其网站不允许网络爬虫访问全文。查重软件面世不过数年,正如人的成长需要时间,软件的成熟也非一日之功。一方面,随着得到更多机构的支持,用以比对的全文库逐渐全面,另一方面,技术在不断进步。可以预期,遗漏和误报相似度的概率将持续下降。另,据说,有机构在研究查公式相似度的技术。技术日新月异,谁敢断言公式无法查重?

 

软件报告被误读,作者被冤枉,相信的确时有发生。矫枉过正,乃是常情。清者自清,作者如若心中无愧,完全可以心平气和地面对报告,对待错判,据理力争。很多时候,作者未必被冤枉。我们少数人的问题,不是直面错误,知耻后勇,而是耍小聪明。譬如,大段抄用,为蒙混过关,改动个别字词,甚至不惜把文章改得语句不通。虽骗过软件,但骗不了自己,也未必改得了抄袭的本质。

 

当务之急,我们需要提出真问题,然后沉下心来解决之。把软件的问题归软件,人的问题归人(或者说,软件设计者的问题归设计者,软件使用者的问题归使用者),(判断抄袭的)标准的问题归标准。譬如,使用者自身的学习(如何科学地解读相似度报告),对软件及用以比对的全文数据库的完善,等等。使用者应审慎地对待相似度报告,对于文字的过度模仿,注重引导教育,不轻易扣帽子。

 

国外众多高校,如哈佛、普林斯顿等,有自己的判定抄袭的细则——敢问国内情况?国外学术诚信教育从娃娃抓起,国内又如何?戴世强教授博文提到,他们课题组制订了一套可执行的学术规范实施细则,课题组所有成员严格执行——这实在是戴老师的学生们的幸运。一个想法,戴老师们把自定标准贡献出来,取长补短,形成国家层面的标准,进而纳入各级学校课程,如何?据悉,国内已有机构在制定抄袭等学术不端行为的认定标准。窃以为,细节和可操作性是关键。标准要被大家普遍认可,需要广泛征求各学科科研人员的意见,有大量工作要做。我真心为这样的举动叫好,衷心祝愿他们成功!

 

 

最后,提出三个疑难:

 

1. 怎么看待原封不动整段搬用自己早先文章的表述?

2. 会议论文扩展,需有怎样程度的差异,才可以在期刊发表(用百分比,含糊,难把握)?关键看什么?

3. 生物医学经典方法,如细胞培养(cell culture),蛋白质印迹分析(western blot analysis),等,是否可以搬用经典描述?

 

欢迎科学网的广大研究人员和编辑同行多多建言,形成共识。在此谢过!




论文写作
https://blog.sciencenet.cn/blog-630081-571004.html

上一篇:晚饭后的散步
下一篇:恢复手机通信录有感
收藏 IP: 125.120.90.*| 热度|

13 刘进平 文双春 许培扬 谢龙 刘建兴 何学锋 王晓峰 张文春 王桂颖 蒋新正 杨正瓴 hangzhou kexuegzz

发表评论 评论 (29 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 05:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部