数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

使用生成式AI执行研究任务的风险:编辑与出版商的观点

已有 980 次阅读 2026-3-15 16:36 |个人分类:科学交流|系统分类:观点评述

引用本文请注明出处

作者:Marco Marabelli, Robert M. Davison, Giovanni Gatti

译者:曹天天

校译:王一雪

来源:https://scholarlykitchen.sspnet.org/2026/03/09/guest-post-the-perils-of-using-generative-ai-to-perform-research-tasks-editors-and-publishers-viewpoints/

生成式AI、学术研究与出版

生成式人工智能(Generative AIGenAI)的作用,近来一直是《学术厨房》读者热议的话题,尤其是其在出版行业中的变革性力量。例如,已有客座文章讨论了如何在利用新兴技术与生产以人为中心的研究之间保持平衡。不过,不妨暂且退后一步来看。这一切始于2017Vaswani等人发表的奠基性论文Attention is All You Need。这篇论文改变了人工智能领域的发展方向。作者提出了一套解释人工智能如何处理语言的新思路,重点在于一种新型人工智能系统,即生成式人工智能。这类系统能够接收用户输入的提示词,并据此生成看似连贯的输出,如文本、图像和音乐。自那以后,个人、组织和整个社会都受到深刻影响;而且,正如电视、移动电话、智能手机和互联网等颠覆性技术通常带来的那样,其后果无论正面还是负面,都超出了人们最初最大胆的预想。

在生成式人工智能与学术界相关的诸多问题中,有一个问题尤为突出,生成式人工智能究竟应当在多大程度上嵌入研究过程的各个环节,或者说是否根本不应嵌入其中,以及由此引发的伦理关切。最初,在20212022年间,随着首个广泛流行的生成式人工智能系统(由 OpenAI开发的ChatGPT-3.5)向公众开放,人们发现它有助于自动完成稿件的文字编辑与校订。然而,更新近的发展表明,生成式人工智能如今已经可以进行文献综述(尽管存在不少限制条件)、分析数据、提出研究问题与研究假设,甚至从零开始写出整篇论文。围绕其更多应用场景的建议也正在不断涌现。

在我们看来,将生成式人工智能用于学术研究在许多方面都存在严重问题。首先,生成式人工智能会产生幻觉,也就是说,它会生成看似合理、实则在事实层面明显错误且具有实质性失真的输出。其次,生成式人工智能的训练数据本身就带有内在偏见,尤其是那些来源于互联网的数据。第三,对生成式人工智能的依赖,可能导致我们所谓的学术去技能化,即研究者逐渐丧失在没有生成式人工智能帮助的情况下完成论文写作等任务的能力。生成式人工智能还可能影响一篇论文中那些至关重要的智识性贡献,如思想与创造力。而这些原本通常被认为应当是人类独有的领域。第四,根据我们的亲身经验,我们意识到,当前许多正在使用生成式人工智能的学者,尤其是青年学者,要么没有意识到这些问题,要么对这些问题抱有某种程度的默认与宽容;更重要的是,并非所有人都真正了解这些系统实际上是如何运作的。这些问题所带来的一个后果,就是大量以生成式人工智能为主题或受其影响的研究不断涌现,但其对社会的实际价值却十分有限。

我们知道,如今已经有多种生成式人工智能工具可用于协助研究者完成研究过程中的几乎每一个步骤,而且确有一些学者支持使用这些工具,例如用其辅助理论建构。我们也清楚,生成式人工智能用于研究仍是一个新兴议题;在本文写作之时,并不是所有学者都已经熟悉这类工具所带来的机会与挑战。因此,我们决定于202510月在美国本特利大学组织一场专题论坛,邀请出版商以及主编共同讨论使用生成式人工智能的利弊及其伦理和政策影响。其中出版商包括爱思唯尔(Elsevier)、翡翠出版社(Emerald)、盖洛特出版社(Gailot Press)、麻省理工学院出版社(MIT Press)、施普林格·自然集团(Nature/Springer)和 威利(Wiley)。我们的目标,是讨论当前在研究中使用生成式人工智能所引发的伦理问题,并考察编辑与出版商之间在这一问题上究竟存在多大程度的一致或不一致。

主要启示

论坛讨论带来的第一点启示是,在研究中是否使用生成式人工智能、在多大程度上使用生成式人工智能,这本身就是一个存在争议的问题。参与讨论的出版商和编辑展现出了不同、甚至截然对立的立场。随着期刊和图书的数字化程度不断提高,在传统纸本订阅模式逐渐衰落的背景下,学术出版商的商业模式越来越围绕数量展开,前提是质量能够得到维持,这也是开放获取发展逻辑的一种反映。相比之下,编辑则将数量视为一个问题。正如上文所提及的,借助生成式人工智能撰写稿件,能够加快写作过程,尤其是在文献综述和数据分析等任务被部分或全部外包给自动化系统的情况下。参与论坛的出版商与编辑似乎在一点上意见相近:必须紧迫地关注作者对生成式人工智能使用情况的充分披露,同时也必须重视同行评审过程可能出现的问题,因为如果评审工作哪怕只是部分地被外包给生成式人工智能,就可能因知识产权和研究参与者隐私等问题而变得复杂。然而,很可能在不久的将来,论文投稿量会增长到仅靠现有人力资源已无法及时应对这一投稿洪流的程度。

第二点启示是,生成式人工智能已经成为一个不会消失的现实。尽管论坛参与者对于生成式人工智能应当使用到何种程度持有不同意见,但所有人都同意(有的人是强烈同意,有的人则是勉强接受)完全禁止使用生成式人工智能并不现实。研究新兴技术嵌入研究过程各环节所带来的社会技术影响,是十分重要的。我们认为,各个学科及其学术共同体都应当更加重视生成式人工智能用于研究所带来的伦理影响。这些问题包括学术不端,即学者的实际做法偏离出版商和编辑所制定的政策要求,以及与此相关的、当前缺乏有效生成式人工智能检测系统的问题;还包括这样一个问题:像生成式人工智能这类以带有偏见的数据集训练出来的自动化系统,究竟应在多大程度上参与研究过程中的文献综述与数据分析环节。

关于学术不端问题:第一,学者应当如何在非发即亡的环境中,系统地训练新一代博士生和青年教师以合乎伦理的方式开展研究?在缺乏可靠检测系统的情况下,将部分研究任务外包给生成式人工智能以图省事,其诱惑无疑是很强的。第二,对于那些超出既定政策边界的生成式人工智能使用行为,可能或应当施加何种后果?这种不端行为会被视作类似于抄袭,还是会被认定为更加严重的问题?第一个问题意味着,我们需要重新思考高校与重要学术会议中的指导培养项目,例如博士生和青年教师研讨项目,以提升人们对学术伦理重要性的认识。第二个问题则更难回答,因为正如前文所说,要以足够高的确定性判断某人是否在研究中使用了生成式人工智能,以及使用到何种程度,是很困难的。这个问题在同行评审环节尤为重要;在这一点上,出版商和编辑似乎都认为,将评审工作外包给生成式人工智能是不恰当的。

关于生成式人工智能的内在偏见,则有一个更棘手的问题。倘若这件事真的可能,研究者如何去审查生成式人工智能的输出结果,并确保其中不嵌入隐性偏见?问题在于,研究者自身同样也是带有偏见的。对于一位白人男性研究者而言,要识别一个建立在大语言模型之上的生成式人工智能系统所生成输出中的偏见,几乎是不可能的;尤其当该系统的训练数据本身就主要来源于以白人男性为主的数据材料时,例如维基百科。这一问题已经超出了在评审过程中仅仅保留人类在环的设想,正如我们在近期一篇论文中所论述的那样。它进一步提出了这样一个问题:如果审查者与被审查工具本身可能共享相同的底层偏见,那么由人来审核这个工具是否还有意义?尤其是在系统本身由于缺乏人的能动性而无法被追责的情况下,这个问题就更加尖锐。

第三点启示表明,出版商和编辑都承认生成式人工智能技术处于不断演进之中,因此也必须在出版商和编辑层面持续更新有关生成式人工智能的政策。举例来说,假如一篇论文因为作者关于生成式人工智能使用情况的声明不符合当前政策,而被编辑作出直接退稿的处理;但下个月这些政策又发生变化,变得更加宽松,那么如果该论文晚一个月投稿,原本就不会遭遇直接退稿。在这种情况下,这是否构成一种公平的期刊实践?或者说,这是否意味着投稿作者受到了不公平对待?与此相关的,还有论坛讨论到的另一个问题,即不同出版商之间普遍存在政策不一致:那些在生成式人工智能政策上更加严格的期刊与出版商,是否会被视为更具合法性或更值得信赖?它们是否会因此收到更少的投稿?

总体而言,如果学者能够围绕期刊与出版商开展跨学科研究,并通过统计分析考察生成式人工智能政策对两年影响因子、拒稿率及其他指标的影响程度,将是很有意义的。此外,从中期目标来看,如果能够在统计上发现如下相关关系,同样具有意义:论文的录用与退稿情况、论文发表后两年内的影响表现——即影响期刊影响因子的引用情况——与作者关于生成式人工智能使用声明之间的关系。生成式人工智能的使用,是否会在论文录用与传播影响方面产生差异?如果会,这种影响究竟是正面的还是负面的?还需要指出的是,某些具体编辑和期刊的生成式人工智能政策,未必与其所属出版商的政策保持一致。根据论坛讨论及我们的观察,如果编辑政策与出版商政策在生成式人工智能使用规则上出现分歧,编辑通常会采取更为严格的标准。这一点并不难理解,因为编辑必须承担投稿量增加所带来的压力;而且,相较于以尽可能发表更多高质量论文为目标的出版商,编辑获得的经济激励要少得多。

论坛最后的一个重要启示是:生成式人工智能究竟会在多大程度上影响未来学术研究,尤其是它会怎样影响个体保有自身研究技能的能力,目前仍不清楚。已有多项研究表明,对某些技术的依赖会导致依附性增强,并造成学术去技能化。例如,依赖GPS系统驾驶汽车,已经削弱了我们的空间定向感。更广泛地说,当个体越来越依赖自动化支持,而不是主动运用并磨炼自己的能力时,就会出现某种认知脱离,而这种脱离正是由算法系统或人工智能系统所提供的便利所推动的。在生成式人工智能的语境下,最新证据表明,当问题解决活动被委托给这些系统时,个体往往会感觉任务所要求的认知投入降低了。与不使用这类系统的人相比,这种委托还与神经连接减弱以及参与水平下降相关。

在这里,学术界应当认真反思,既然欢迎生成式人工智能进入研究过程,很可能会直接导致我们的研究技能退化,那么这种做法是否可以接受?如果技术发生故障,也就是说,当生成式人工智能停止工作,哪怕只是暂时停止,而某个人由于长期依赖生成式人工智能,已经失去了独立制作PPT或在论文提交前回应审稿人最后修改意见的能力,那么会发生什么?更进一步,无论是我们自己对学术界有关生成式人工智能研究成果的了解,还是此次论坛所得出的结论,似乎都指向一种共同看法:生成式人工智能不应当被用于同行评审过程。如果评审过程哪怕只是部分地被委托给生成式人工智能,那么博士生和青年学者在没有深度参与评审过程的情况下,又如何能够学会写论文?除了潜在的去技能化之外,或者对博士生和青年教师而言,甚至可能是一种未形成技能状态。我们还必须记住,将论文甚至审稿意见上传到公共的或外部的生成式人工智能系统中,例如 ChatGPT(相对于企业版 Copilot,这类系统可被视为内部的),可能构成知识产权侵权,具体取决于相关材料的版权状态和许可条款。在某些情况下,这还会引发隐私问题,例如当被评审论文中包含研究参与者的直接引语时就是如此。

总体思考

总而言之,生成式人工智能用于研究的许多方面目前仍处于明显的流动状态:一方面,是因为出版商与编辑持有不同立场;另一方面,是因为生成式人工智能技术在短期和中期内将如何演变,目前仍不明朗。我们认为,那些熟悉社会技术系统研究的学者,可能是最适合探讨生成式人工智能对研究影响的一批学者,因为这一问题牵涉到人、过程与组织,而这些因素彼此深度缠结,其中各种实践主体都会(或者说都应当)阅读我们的研究成果。虽然对生成式人工智能施加严格限制性监管的可能性很低,但个体学者、机构、编辑、期刊与出版商都很可能会形成各自关于何为适当使用的标准。与此同时,行业层面的规范乃至正式标准也有可能逐步出现,并可能由国际标准制定机构推动,例如国际标准化组织(International Organization for StandardizationISO)和国际电工委员会(International Electrotechnical CommissionIEC),这在当前进行中的若干倡议中已有所体现,例如 ISO/IEC AWI 25590。此类标准可能会根据相关行为主体的不同,以政策或原则的形式呈现。这些政策与原则在多大程度上趋同或分化,必然会影响生成式人工智能对研究过程的作用范围。即便在我们自己的学术共同体也就是信息系统领域内部,我们也已经知道,有些期刊编辑所秉持的原则彼此截然相反:有的人鼓励各种形式的生成式人工智能使用,而有的人则对所有智识性任务中的生成式人工智能使用一概禁止。



https://blog.sciencenet.cn/blog-521339-1525862.html

上一篇:开放学术研究正蓄势创造前所未有的价值,但我们准备好了吗?
收藏 IP: 58.48.27.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-1 21:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部