数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

GPT-3可以自己写出整篇论文,出版商应该担心吗?

已有 2299 次阅读 2023-6-15 17:41 |个人分类:科学交流|系统分类:海外观察

引用本文请注明出处

作者:SAIKIRAN CHANDHA        译者:康楚熠        校译:李静涵

来源:https://scholarlykitchen.sspnet.org/2023/04/12/guest-post-gpt-3-wrote-an-entire-paper-on-itself-should-publishers-be-concerned/

 

研究表明,在过去的几年里,企业对人工智能(AI)的依赖性越来越强。企业在至少一个职能或业务部门内嵌入AI功能的平均数量从2018年的1.9增加到了2022年的3.8

而且不仅仅是企业,甚至普通民众也开始注意到AI。像GPT-3DALL-EChatGPTAlphacode这样的AI模型一直是社交媒体上的热门话题。因此,生成性AI的进步会对科学和学术界产生影响也不足为奇。一位研究人员通过简单的提示让GPT-3写了一整篇论文。这篇论文最初在审查后被一家期刊拒绝,但随后被提交给的另一家期刊接受,并将ChatGPT列为作者之一。如今这种趋势变得越来越普遍。

GPT-3,即Generative Pre-trained Transformer 3(生成性预训练模型3),是一个大型语言模型,使用预训练的数据来根据你的提示生成输出内容。它已经在近570千兆字节的文本上进行了训练,大部分是由各种来源的互联网内容组成的,包括网页、新闻文章、书籍,甚至是到2021年为止的维基百科页面。

因此,当你用自然语言输入一个提示时,它会使用训练数据来识别模式,然后给你最合适的回应。你可以用它来完成句子、撰写论文初稿、做基础数学,甚至写计算机代码。

在本文中,我们将讨论GPT-3和相关模型对学术研究的影响、潜在的问题以及学术出版商可以采取哪些措施来保护自身利益。

 

GPT-3对学术研究的影响

该模型自2020年前后问世,已用于开发一系列新的应用程序,如聊天机器人、翻译工具和搜索引擎等等。

也许它最受关注的功能是它能够撰写类似人类的文章。你可以通过一个基本提示来生成一篇原创文章,如撰写一篇800字左右的学术论文,说明AI如何影响学术界

GPT-3的深度学习算法使它能够从头开始写作,自动完善你的句子,并在你已经写好的基础上进行构建。微软计划将该模型整合到包括WordPowerpointOutlook在内的办公套件中。到目前为止,他们已经将该模型的一个版本添加到Edge浏览器、Bing搜索和Teams协作工具中。其他科技巨头,如谷歌和亚马逊,也在推动AI领域的发展。谷歌将推出对话式AI服务Bard,而亚马逊网络服务正在与AI初创公司Hugging Face合作,为客户创造具有成本效益的AI应用。

现在,这只是GPT-3应用的一小部分。自其开放APIApplication Programming Interface,应用程序编程接口)发布以来,世界各地的研究实验室和公司一直在构建由该模型提供支持的新应用。ChatGPTGPT-3的一个兄弟模型,正在彻底改变我们与机器交互的方式。它基于对话的方法使公众能够用简单的语言通过提示和问题来完成工作——这是对菜单、按钮和预定义命令的一种改变。

这些发展肯定会改变写作的工作流程。确定内容是人类还是AI撰写的将成为挑战。在AI与我们合作的情况下,将想法和思路转化为文件上充分充实的要点将会与以往不同。

将这项技术引入学术界会引发复杂的问题。GPT-3可以被列为作者吗?版权在其中扮演什么角色?这种用法的道德规范如何?

从好的方面来说,非英语母语者将更容易克服语言障碍。他们能够产出高质量的研究论文,而不必担心语法或句法问题。此外,AI辅助写作可以帮助研究人员节省时间,使他们能够专注于完善想法和构思论点,并进行更深入的分析。

此外,你甚至可以命令模型以某种方式格式化输出。而每篇论文的排版通常要花14个小时。

简而言之,这些功能使研究人员能够更快地完成他们的手稿,并更快地与世界分享突破性成果。

这引发了一系列全新应用的产生:从开发电子表格公式、创建Python代码到编写SQL——所有这些都来自于简单的文本提示。这还不是全部,你还可以使用工具来帮助你进行文献搜索和阅读的过程。

在这一点上,我想透露一下,目前我运营着SciSpace(旨在帮助科研人员更快地阅读和理解科技文献的在线工具)。我们最近在研究论文库中添加了一个AI助手。它帮助分解、总结和翻译研究论文,以及解释数学、表格和文本。不仅如此,我们还有其他工具可以帮助从研究论文中提取更多信息。

除此之外,还有像DeepMindAlphaFold这样可以预测蛋白质结构的模型,以及OpenAICodex这样可以解决复杂的大学数学问题或提供编码帮助的模型。

 

警惕GPT-3的原因

GPT-3的批评者对该模型输出的内容提出了许多质疑,从剽窃、偏见到缺乏可靠性。这些质疑也是有所来源的。

2021年对发表在《微处理器和微系统》(Microprocessors and Microsystems)上的文章进行的一项调查显示,该期刊发表了近500篇有问题的文章。该研究显示,这些文章包含不完整的引文、不准确的科学陈述以及荒谬的内容,使得这些论文无法重现。调查人员认为,作者可能使用了GPT和反向翻译软件来隐藏抄袭行为,并扩充他们的内容。

另一个问题是GPT-3输出的结果可能存在偏差。该模型是在非结构化的网络数据上训练的。因此,它可以很容易借鉴关于各种亚群体的现有刻板印象和观念,如种族、政治意识形态、宗教或性别。过去的调查发现了含有严重偏见的实例,这带来了具有攻击性和冒犯性的输出。因此,将这些模型用于学术研究,可能因歧视性语言和无端的同质化而污染科学。

该模型是根据2021年的数据训练的,所以除非你在提示中给出所有正确的信息,否则它可能会给你提供过时的输出。另外,GPT-3倾向于造假,也就是说,它会产生没有意义或不真实的输出。例如,当你问及某个特定的理论和它的推导原因时,该模型可能会回答一些完全不相关或无意义的东西。

为什么会发生这种情况?归根结底,互联网包含了我们的想法、数据和事实,但没有推理、逻辑或上下文,无法真正理解它们。因此,GPT-3没有办法知道什么是真实的或正确的,或为什么事情是这样的。导致该模型最终在一定概率上会产生不了解问题背景的输出。

避免这个问题的一个方法是使用思维链提示技术,即为模型提供例子和说明,帮助将问题分解成更小的步骤,最终得出正确的答案。

还有其他的伦理和道德问题。当论文发表被视为研究人员能力、任期和晋升的评价依据时,使用AI来写论文是否正确?另外,如果作者使用AI工具来写论文,是否意味着应该把工作归功于该工具而不是作者?

 

学术出版商可以做什么?

首先,重要的是要认识到:

● 大部分学术界都采用不出版便出局的模式;

● 造纸厂和掠夺性期刊不会消失;

● 英语在学术和科学话语中占主导地位;

GPT-3和其他AI模型正在不断发展,并为学术界带来巨大的潜力。然而,与写作有关的AI技术并不新鲜——谷歌文档、微软Word和移动键盘已经提供了单词和短语推荐、拼写检查和语法修正功能。由GPT-3驱动的写作工具现在更进一步:它们不是提供一个可供选择的单词列表,而是让AI预测和完成整个句子和段落。

但与此同时,学术出版商需要保护其期刊的完整性,使其免受操纵、虚假信息、剽窃和偏见的影响。

以下是出版商可以采取的一些步骤,以确保他们在面对GPT-3所带来的变化时继续取得成功:

1使用AI工具进行质量控制:AI工具纳入你的内部筛选工作流程,作为质量控制的第一道。利用它们来确定论文是否符合期刊的范围,检测文字重叠和抄袭,检测格式和语法错误,并评估实验设计的适当性。它应该帮助编辑和同行评审员处理大量的投稿,减少他们的工作量,并把注意力放在最相关的论文上。

2、建立清晰的框架:围绕AI工具的使用制定政策。它应该概述可接受的研究方法、作者必须遵守的道德标准以及不遵守的后果。此外,如果出版商计划在其工作流程中使用AI工具,例如寻找相关的同行审稿人,那么他们必须清楚地概述如何在这个过程中减少偏见或歧视的风险。

3、监测现有论文:借助研究诚信专家、AI侦探和AI图像检测工具,确保已发表的文章不存在图像重复使用、无意义的内容或机翻语言。撤回那些不符合期刊标准的论文。

4、教育作者:研究论文的写作和投稿是繁琐的活动。通常情况下,研究人员可能需要帮助才能知道该怎么做。创建一个博客或YouTube频道,用它来解决这些知识差距和模糊的问题。同时,利用这一点来建立对造纸厂、掠夺性期刊以及使用AI工具的伦理和道德影响的认识。利用COPECommittee on Publication Ethics,出版伦理委员会)和CSEThe Council of Science Editors,科学编辑委员会)等组织创建的现有资源,围绕出版道德分享实用建议和帮助,以确保提交的内容符合公认的标准。

5、提供附加服务:由于大多数论文是用英语发表的,非英语国家的人为了学术上的成功,不得不写英语文章。许多人认为这是一种负担,让交流新的想法和见解变得困难。出版商可以求助于AI翻译工具,如DeepL,以捕捉语言中的细微差别,并在翻译中保留这些细微差别。这将使他们能够收到更多的投稿,更快地准备好出版物,并确保非英语论文维持原意。

6、鼓励开放获取:敦促作者将他们的预印本存档到ArXiv(一项免费分发服务和一个开放存取档案库)这样的资料库中,或者在Zenodo(一个免费开放数字档案库,使研究人员能够共享和保存任何规模、格式和来自所有研究领域的研究成果)中分享他们的数据集,这将有助于促进透明度和开放性。更高的可见性将导致更多的下载,并暴露所有可疑的行为。对于付费论文,出版商应该有一个专门的内部团队来验证原始数据、寻求读者反馈,并监测网络上的评论,以确保准确性和可信度。

7、检查提交稿件的完整性:确保所有积压的论文都通过GPT检测器。它应该有助于识别那些使用AI来构建其稿件核心理论的作者。此外,使用DimensionsScopusWeb of Science等数据库来检测虚假或捏造的引用——这在GPT-3生成的论文中很常见。AI经常引用不存在或与主题无关的论文。

通过遵循这些步骤,出版商将能够更好地识别潜在问题并制定确保其出版物完整性的政策。

 

一点思考

鉴于其发展的速度,AI工具在科学研究和交流中的作用只会越来越大。至于影响是好是坏,目前还没有定论。

一方面,它可以使研究和知识民主化。而另一方面,它可能会加剧信息过载,使更多人利用我们教育系统更加偏向量化成果这一缺陷。

学术出版商和其他利益相关者需要仔细评估AI工具的影响,并采取必要的措施以确保其使用不会导致欺诈活动或不道德的研究行为。




https://blog.sciencenet.cn/blog-521339-1391879.html

上一篇:专著的开放获取来了,但我们准备好了吗?
下一篇:实现开放获取图书的全球公平
收藏 IP: 58.48.27.*| 热度|

2 农绍庄 李升伟

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-18 23:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部