lqs321的个人博客分享 http://blog.sciencenet.cn/u/lqs321

博文

聊聊学术论文查重话题 精选

已有 4859 次阅读 2025-3-24 07:50 |系统分类:观点评述

聊聊学术论文查重话题 

刘庆生

(中国地质大学,武汉)

不知道从什么时候开始,学术论文和研究生学位论文,甚至科研项目申请书都要在正式送审前实施查重。一些期刊和机构还规定,不管什么情况,查重率不得超过一定数值,否则不接受论文送审、发表和答辩,这给我们的学者,尤其是青年学者和研究生带来一定困惑和麻烦。我在美国普度大学任教学生告诉我,他们那儿对研究生学位论文也会通过学校提供的第三方软件平台实施查重。这就表明,对学术论文查重不仅限于我国学术界。一篇学术论文手稿文字重复率高一点是否意味论文作者一定存在学术不端,这决不会是一个简单的是非问题,两者之间不一定存在确定的因果关系。因为,我们要客观分析重复率产生的原因,具体要看重复率数据、重复内容、重复目的及是否注明出处(引文)等因素。

回想当年我们发表国内外学术论文都没有查重这个环节,至少我发表的中英文学术论文及我的研究生的硕博学位论文都没有经历查重过程,这种情况也许与当年的学术环境以及缺乏有效的检测技术有关。所以,从某种意义上,当下学术论文查重属于学术界的自我纠错行为,规避学术不端,营造良好的学术环境。因此,有关机构要求论文查重的初衷和愿望无可厚非,我想就这个话题谈点我的粗浅认识,供大家参考。

在谈到论文查重话题就必须了解一篇学术论文的基本结构与产出过程。众所周知,一篇承载科技成果的学术论文与研究生学位论文的结构与撰写的基本过程相似。抛开剽窃同行成果和捏造数据的学术不端,我们正常发表的学术论文属于科技成果的载体,它体现了成果的优先属性以及满足各种科学评价需求。我的科教公益报告“学术论文的创作”中有一张片子谈到学术论文内容的基本组成:“一篇学术论文主要有下面几部分组成: 1.为什么要做?这部分内容一般安排在“前言或研究背景”部分,它通过引用足够文献深刻阐述学术论文成果的重要性和创新性,尤其是原创性。2.如何做?指成果采用的研究方法或实验方法(或计算方法)。3.获得什么结果?充分运用图表展示论文的具体成果。4.讨论。展示成果的意义,通过与同行类似成果对比,显示论文成果在某一方面的创新性与重要意义。5.结论。”对于不同学科论文结构基本相似,具体编排稍有不同,例如,有的作者喜爱将结果与讨论放在一起。对于研究生学位论文一般机构通常会提供一个论文写作模版供学生参考。

上述提到一篇论文组成的5个部分内容中除了结果与结论,其余部分几乎都可能涉及文字重复的可能。因为“前言或研究背景”,“研究方法或实验技术”与“讨论”中都会涉及与同行论文比较和参考同行的分析实验(或计算)方法,从而造成与引文文字重复现象,导致论文查重率偏高,即使作者注意列出了对应的文献。例如一篇论文的“前言或研究背景”在论证“为什么做?”就涉及大量引用同行发表的论文,因为,论文前言需要重点介绍:为什么值得做?别人做的怎么样?相对于同行有什么特色?这表示作者充分尊重同行的研究成果,属于“站在同行肩膀上做自己的科学研究。”所以,我常说,一篇论文的前言是引用同行文献相对较多地方(另一个是讨论部分)。为此,在引用同行文献时如果将相关文字简单粘贴就会造成较高的重复率。显然,对于一篇综述类(评述)论文的查重就更有必要,因为,一篇高水平的综述论文往往要引用大量文献。一位资深教授给我发来他刚发表的一篇重要综述论文的参考文献达300篇。如果在介绍同行文献时简单粘贴,不仅会造成文字高重复率,文章的文字表述也会枯燥无味,降低综述论文的水平和价值。

在我的理念里,文字重复率似乎还与学科性质相关。例如我们地球科学学科,除了上述情况外,论文的文字重复还会发生在一些案例研究成果(Case study)文章中。这是由地球科学学科的“不确定”属性决定,即同样一种客观存在的地球科学现象,可以有多种不同的解释,真相永远藏而不露,例如恐龙绝灭的成因机制。以我所在的固体球物理学科为例,当我研究某一地区岩石物理性质(磁性、密度、电性和波速)与深部构造关系时,在论文“地质-地球物理背景”和“结果及讨论”部分就会用到这个地区的地质学科学者研究成果,它涉及地层学、岩石学、矿物学、地球化学和构造地质学等,包括地质图件和文字内容。如果只是简单粘贴就容易造成文字重复,尽管这种情况也许属于“合理”重复,但是查重软件无法区分。

以上是我对一篇学术论文文字重复率主要原因的基本认识。如何克服或降低高重复率?我认为采取“自己组织文字撰写学术论文”就可以做到降低重复率。具体是指在参考同行文献时不要大段粘贴同行文献中的文字段落,而是在阅读同行文献内容基础上用自己语言重新组织文字撰写相关部分内容,尤其不要依AI技术,例如当下流行的Deepseek模型。由于AI技术主要基于同行文献的各种数据库,所以,也许AI技术会存在某种程度文字粘贴从而导致论文重复率增高。有学者告诉我,AI工具撰写的论文存在一些严重表述趋同化现象,显然不适合直接撰写学术论文。这也是为什么有的期刊学术编辑和专家很容易发现利用AI技术撰写的文字材料。所以,“用自己的语言文字撰写学术论文”是克服论文查重率高的基本手段。正如我的博文“聊聊‘专业学术语言文字表述’话题”(2025年3月10日科学网)最后说:“逐渐形成具有自己特色的学术语言文字表述方式。”只有这样长期坚持才能将同行的先进学术思想和精彩的文字表达转变成自己的学术语言,你撰写的文字材料的查重率就会大大降低。一位中国地质大学(武汉)李四光学院本科毕业,在中国科学院精密测量科学与创新研究院获得博士学位,在清华大学做博士后的年轻人读了本文初稿后谈了她的感言:“我觉得科研一大魅力是形成文字表述自己的思想。最近我写了一篇中文文章,用自己的话把工作讲述了一遍,查重率(只有)2.56%,还是很骄傲的”,我认为她说的很对,值得大家参考。

2025年3月20日初稿,24日提交科学网



https://blog.sciencenet.cn/blog-673617-1479011.html

上一篇:回老家过大年
收藏 IP: 59.173.134.*| 热度|

15 檀成龙 崔锦华 郑永军 王从彦 汪凯 王涛 程金辉 郭战胜 焦飞 毛善成 王启云 钟定胜 徐长庆 朱爱军 陈怡

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

IP: 183.63.97.*   回复 | 赞 +1 [4]李东风   2025-3-26 08:24
查重率与学术端不端是两回事,不可混淆。若一个学者一生只做一个狭小领域研究,在他所发文章中前言必定会出现类似重复的背景描述(自引),如同编写教材,某一公认的学说一旦被认定,不能随意改写,否则有可能产生歧义。
IP: 119.130.152.*   回复 | 赞 +1 [3]李东风   2025-3-24 20:28
查重的界定应该是不允许直接粘贴他人论文原话(引用需注明)。若一篇论文粘贴率超过30%以上,无论如何定性为抄袭。前言讨论部分要格外小心。常用方法描述可以忽略。自引部分字数有限也可忽略。但如果改写很难判定。



















9
回复  查重率一般不能超过10%。
2025-3-24 21:281 楼(回复楼主) 赞 +1 | 回复
回复  百分比并不重要。写文章字数总不可以像市场买菜般斤斤计较吧。科学不是用称称的
2025-3-25 08:042 楼(回复 1 楼) 赞 1 +1 | 回复
回复  查重目的就是看文字重复率多少!并据此判定,,,,当然重复率高并不一定意味学术不端,具体我的博文里面都讲了。
2025-3-25 16:023 楼(回复 2 楼) 赞 +1 | 回复
IP: 117.160.238.*   回复 | 赞 +1 [2]张珑   2025-3-24 13:27
有些工作,比如材料和方法部分,很容易和自己以前的工作重复,这个似乎也不容易避免。
回复  对!这个也许属于10%以内允许的重复率。
2025-3-24 14:521 楼(回复楼主) 赞 1 +1 | 回复
IP: 119.2.244.*   回复 | 赞 +1 [1]檀成龙   2025-3-24 11:10
“逐渐形成具有自己特色的学术语言文字表述方式。”
一个学者要发表很多论文,这样做的话,与自己先前发表的论文重复的可能性会不会比较大?也就是所谓的“自我抄袭”问题。
我认为,“自我抄袭”是一个伪问题,不应该有“自我抄袭”的说法。您怎样看待“自我抄袭”的问题?
回复  自我抄袭也会导致查重率高,所以,还是采取与同行文献一样对待!
2025-3-24 12:121 楼(回复楼主) 赞 1 +1 | 回复
回复  自我抄袭自然也属于学术不端!
2025-3-24 12:272 楼(回复 1 楼) 赞 +1 | 回复
回复  多谢回复。
为了讲清楚某个道理,用一段文字非常准确地表述了。
下一次,在其它的论文中,一定要用不同的文字来表述,有这个必要吗?
   
第2次用不同的语言来表述,
第3次又要用与第1次、第2次都不同的语言来表述,
第4次又要用与第1次、第2次、第3次都不同的语言来表述,
有这个必要吗?
况且,第1次非常准确地表述了,以后用不同的语言来表述,未必非常准确。

科研论文究竟是玩文字游戏?还是为了解决真问题?
我认为,为了查重,不断地变换语言表达,有一点本末倒置。
一般人的文章、观点认识,不可能达到一句顶一万句的作用,有些事情有重复的必要。
我的观点可能不对,愿意接受批评指正。
2025-3-24 16:303 楼(回复 2 楼) 赞 +1 | 回复
回复  补充:举个例子。
在我的博客https://blog.sciencenet.cn/home.php?mod=space&uid=1458267&do=blog&id=1478493中,第3.1节是大南疆盆地的范围,有578个字。因为大南疆盆地是我创造的,整个社会不了解这个名词,我想让学术界和整个社会接受这个名词,我就要宣传它,但我是一个小人物,不可能一句顶一万句(伟人都很难做到一句顶一万句),我就要不断重复地宣传它。这就是自我抄袭,这就影响查重率。

玩文字游戏,不断地变换语言表达,有这个必要吗?
2025-3-24 19:044 楼(回复 2 楼) 赞 +1 | 回复

1/1 | 总计:4 | 首页 | 上一页 | 下一页 | 末页 | 跳转

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-26 19:40

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部