氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

ChatGPT来了,科学研究会变成啥样? 精选

已有 12628 次阅读 2023-2-5 16:05 |系统分类:海外观察

对科学研究领域,现在不是拒绝使用的问题,而是如何使用,如何避免错误使用的问题。最近一直思考的问题这篇文章给了一些答案,例如利用这种大型语言模型提供的方便,能帮助审稿人审稿,能帮助研究生撰写毕业论文,能帮助快速整理文献综述。当然由于这种系统不够成熟,目前使用的时候不能忘记会带来错误信息,目前只要坚持对信息进行人工确认,这个问题可以避免。将来可以利用多种技术对比的方法解决。

我个人最近设想未来对科学研究的影响是:一是给真正有能力的科学家提供了核动力,二是学术论文的掘墓人,三是治理学术泡沫的神器。

1)人工智能真正有利于科学问题的提出,过去我们想到一些不成熟的科研思路,要经过查文献和同行交流实验验证等方法确认,现在可以先和人工智能进行对话和讨论,至少能快速从文献中获得相关信息,以增加思路的科学性。

2)论文发表可能会逐渐失去意义。学术论文是科学家交流思想的理想载体,但这是过去数百年逐渐形成的文化和模式,如果利用人工智能技术和网络存储潜力把人的各种思想有效保留下来,老式八股形式的学术论文可能会被更有效且具有一定个性化的学术专著形式的资料库取代,甚至为适应人工智能协助科研的模式,逐渐发展出更多新的思想交流模式。

3)大量伪学术研究逐渐失去市场。今天是科学研究泡沫化非常严重的时代,这是学术界有目共睹的现象。如果在人工智能具有客观评价学术的能力,过去许多学术垃圾论文,将会无法遁形。未来的伪学术研究项目和研究报告,都会在这一技术的评估下,难以生存。当然这对于净化学术空气,减少无效学术信息,是非常有价值的。

以下内容参考最近《自然》杂志关于这一话题的最新文章。

ChatGPT: five priorities for research (nature.com)

自从去年年底发布了一个名为ChatGPT的聊天机器人以来,很明显,这种类型的人工智能(AI)技术将对研究人员的工作方式产生巨大影响。

ChatGPT 是一种大型语言模型 (LLM),这是一种机器学习系统,它从数据中自主学习,在对大量文本数据集进行训练后,可以产生复杂且看似智能的写作。这是OpenAI发布的最新模型,OpenAI是加利福尼亚州旧金山的一家人工智能公司,以及其他公司发布的。ChatGPT 引起了兴奋和争议,因为它是首批可以用英语和其他语言与用户就广泛主题进行令人信服的对话的模型之一。它是免费的,易于使用并继续学习。

这项技术对科学和社会有着深远的影响。研究人员和其他人已经使用ChatGPT和其他大型语言模型来撰写论文和演讲,总结文献,起草和改进论文,以及确定研究差距和编写计算机代码,包括统计分析。很快,这项技术将发展到可以设计实验,撰写和完成手稿,进行同行评审并支持接受或拒绝手稿的编辑决策。

对话式人工智能可能会彻底改变研究实践和出版,创造机会,也会带来担忧。它可能会加速创新过程,缩短出版时间,并通过帮助人们流利地写作,使科学更加公平,并增加科学观点的多样性。然而,它也可能降低研究的质量和透明度,从根本上改变我们作为人类研究人员的自主权ChatGPT和其他LLM产生的文本令人信服,但通常是错误的,因此使用ChatGPT可能会歪曲科学事实并传播错误信息。(如果这些问题被克服,会怎么样?)

我们认为,科学研究使用这项技术是不可避免的,因此,禁止它是行不通的。研究界必须就这种潜在颠覆性技术的影响进行辩论。在这里,我们概述了五个关键问题,并建议从哪里开始。

一、坚持人工验证

LLM已经开发了多年,但是数据集质量和大小的不断提高,以及通过人类反馈校准这些模型的复杂方法,突然使它们比以前强大得多。LLM将带来新一代搜索引擎能够为复杂的用户问题提供详细且信息丰富的答案。

但是,使用对话式人工智能进行专业研究可能会带来不准确、偏见和抄袭。我们向 ChatGPT 提出了一系列问题和作业,这些问题和作业需要对文献有深入的了解,并发现它经常产生虚假和误导性的文本。例如,当我们问“有多少抑郁症患者在治疗后复发?”时,它产生了一个过于笼统的文本,认为治疗效果通常是持久的。然而,许多高质量的研究表明,治疗效果减弱,在治疗完成后的第一年复发风险从29%51%不等。重复相同的查询会生成更详细和准确的答案(请参阅补充信息,图 S1 S2)。

接下来,我们要求ChatGPT总结我们两个人在JAMA精神病学上撰写的系统综述。认知行为疗法(CBT)对焦虑相关障碍的有效性。ChatGPT捏造了一个令人信服的回应,其中包含一些事实错误,虚假陈述和错误数据(见补充信息,图)。S3)。例如,它说该综述是基于46项研究(实际上是基于69项研究),更令人担忧的是,它夸大了CBT的有效性

此类错误可能是由于 ChatGPT 的训练集中缺少相关文章、未能提取相关信息或无法区分可信和不太可信的来源。似乎经常导致人类误入歧途的相同偏见,例如可用性,选择和确认偏见,在对话式AI中被复制甚至经常被放大。

使用ChatGPT的研究人员可能会被虚假或有偏见的信息误导,并将其纳入他们的思维和论文中。不专心的审稿人可能会被一篇人工智能撰写的论文所欺骗,接受其美丽、权威的散文,因为光环效应是一种从一些突出的正面印象中过度概括的倾向。而且,由于这项技术通常会在没有可靠地引用原始来源或作者的情况下复制文本,因此使用它的研究人员有可能不信任早期的工作,无意中抄袭大量未知文本,甚至可能泄露自己的想法。研究人员向ChatGPT和其他LLM透露的信息可能会被纳入模型,聊天机器人可以在不承认原始来源的情况下将其提供给其他人。

假设研究人员在他们的工作中使用LLM,学者需要保持警惕。专家驱动的事实核查和核查过程将是必不可少的。即使LLM能够准确地加快摘要,评估和评论,高质量的期刊也可能决定包括人工验证步骤,甚至禁止某些使用该技术的应用程序。为了防止人类自动化偏见——过度依赖自动化系统——强调问责制的重要性将变得更加重要。8.我们认为人类应该始终对科学实践负责。

二、制定问责规则

工具已经可用于预测文本来自机器或人类的可能性。这些工具可能有助于检测造纸厂和掠夺性期刊不可避免地使用LLM来制造内容,但这种检测方法可能会被进化的人工智能技术和聪明的提示所规避。与其在人工智能聊天机器人和人工智能聊天机器人检测器之间进行徒劳的军备竞赛,我们认为研究界和出版商应该研究如何以正直、透明和诚实的方式使用LLM

研究论文中的作者贡献声明和致谢应明确而具体地说明作者在准备手稿和分析时是否以及在多大程度上使用了 ChatGPT 等人工智能技术。它们还应说明使用了哪些LLM。这将提醒编辑和审稿人更仔细地审查稿件,以发现潜在的偏见、不准确和来源不当。同样,科学期刊应该对LLM的使用保持透明,例如在选择提交的手稿时。

研究机构、出版商和资助者应采取明确的政策,提高对使用对话式人工智能的认识,并要求透明度,以准备可能成为已发表记录一部分的所有材料。出版商可以要求作者证明是否遵守了此类政策。

目前,LLM不应该是手稿的作者,因为他们不能对自己的工作负责。但是,研究人员可能越来越难以确定LLM在他们的研究中的确切作用。在某些情况下,ChatGPT 等技术可能会根据作者的提示生成手稿的重要部分。在其他情况下,作者可能已经使用AI作为语法或拼写检查器经历了许多修订和改进周期,但没有使用它来创作文本。未来,LLM可能会被纳入文本处理和编辑工具,搜索引擎和编程工具。因此,他们可能会对科学工作做出贡献,而作者不一定知道贡献的性质或规模。这违背了今天对作者身份、剽窃和来源的二元定义,其中某人要么是作者,要么不是,并且来源要么被使用,要么没有。政策必须适应,但完全透明始终是关键。

人工智能设计的发明已经引起了对专利法的根本性反思9,并且已经就用于训练AI的代码和图像以及AI生成的代码和图像的版权提起诉讼(见 go.nature.com/3y4aery)。对于人工智能撰写或辅助的手稿,研究和法律界还需要弄清楚谁拥有这些文本的权利。是编写人工智能系统训练文本的个人,生产人工智能的公司还是使用该系统指导他们写作的科学家?同样,必须考虑和定义作者身份的定义。

三、开发真正开放的LLM.

目前,几乎所有最先进的对话式人工智能技术都是少数拥有人工智能开发资源的大型科技公司的专有产品。OpenAI主要由微软资助,其他主要科技公司也在竞相发布类似的工具。鉴于少数科技公司在搜索、文字处理和信息访问方面近乎垄断,这引发了相当大的道德问题。

研究界最紧迫的问题之一是缺乏透明度。ChatGPT 及其前身的基础训练集和 LLM 尚未公开,科技公司可能会隐藏其对话式 AI 的内部工作原理。这与向透明度和开放科学的方向背道而驰,并且很难发现聊天机器人知识的来源或差距。10.例如,我们促使ChatGPT解释几位研究人员的工作。在某些情况下,它根据h指数(一种衡量其工作影响的方法)对科学家进行了详细的描述,这些科学家的影响力可能较低。尽管它成功地为一组h指数约为20的研究人员,但它根本没有产生关于几位高引用和知名科学家的工作的任何信息,即使是那些h指数超过80的科学家。

为了应对这种不透明现象,应优先考虑开源人工智能技术的开发和实施。大学等非商业组织通常缺乏跟上LLM快速发展步伐所需的计算和财政资源。因此,我们主张科学资助组织、大学、非政府组织、政府研究机构和联合国等组织以及科技巨头对独立的非营利项目进行大量投资。这将有助于开发先进的开源、透明和民主控制的人工智能技术。

批评者可能会说,这种合作将无法与大型科技公司相媲美,但至少有一个主要的学术合作,BigScience,已经建立了一个开源语言模型,称为BLOOM。科技公司可能会从这样的计划中受益,通过开源其模型和语料库的相关部分,希望创造更大的社区参与,促进创新和可靠性。学术出版商应确保LLM可以访问其完整的档案,以便模型产生准确和全面的结果。

四、拥抱 AI 的优势

随着学术界工作量和竞争的增加,使用对话式人工智能的压力也在增加。聊天机器人提供了快速完成任务的机会,从努力完成论文的博士生到需要对其资助提案进行快速文献审查的研究人员,或者迫于时间压力提交分析的同行评审员。

如果人工智能聊天机器人可以帮助完成这些任务,那么结果可以更快地发布,让学者们能够专注于新的实验设计。这可以显著加速创新,并可能导致许多学科的突破。我们认为这项技术具有巨大的潜力,只要解决目前与偏见、出处和不准确相关的初期问题。重要的是要检查和提高LLM的有效性和可靠性,以便研究人员知道如何明智地将该技术用于特定的研究实践。

一些人认为,由于聊天机器人只是学习训练集中单词之间的统计关联,而不是理解它们的含义,LLM将永远只能回忆和综合人们已经做过的事情,而不是展示科学过程中的人类方面,例如创造性和概念思维。我们认为这是一个不成熟的假设,未来的人工智能工具可能能够掌握科学过程中今天似乎遥不可及的方面。在1991年的一篇开创性论文中,研究人员写道,人与智能技术之间的“智能伙伴关系”可以胜过人们的智力。这些智能伙伴关系可以超越人类的能力,并将创新加速到以前无法想象的水平。问题是自动化能走多远,应该走多远?

人工智能技术可能会重新平衡学术技能。一方面,人工智能可以优化学术培训——例如,通过提供反馈来提高学生的写作和推理能力。另一方面,它可能会减少对某些技能的需求,例如执行文献检索的能力。它还可能引入新技能,例如提示工程(设计和制作用于提示对话 AI 模型的文本的过程)。某些技能的丧失不一定是问题(例如,大多数研究人员不再手动进行统计分析),但作为一个社区,我们需要仔细考虑哪些学术技能和特征对研究人员仍然至关重要。

如果我们只关心性能,随着人工智能技术的进步,人们的贡献可能会变得更加有限和模糊。未来,人工智能聊天机器人可能会产生假设,开发方法,创建实验。分析和解释数据并撰写手稿。代替人类编辑和审稿人,人工智能聊天机器人也可以评估和审查文章。尽管我们离这种情况还有一段路要走,但毫无疑问,对话式人工智能技术将越来越多地影响科学出版过程的所有阶段。

因此,包括伦理学家在内的学者必须就使用人工智能在知识生成中创造潜在的加速与研究过程中人类潜力和自主性的丧失之间的权衡进行辩论。人们的创造力和独创性、教育、培训和与他人的富有成效的互动可能仍然是进行相关和创新研究的关键。

五、扩大辩论范围

鉴于LLM的颠覆性潜力,研究界需要组织一场紧急而广泛的辩论。首先,我们建议每个研究小组立即召开会议讨论并亲自尝试 ChatGPT(如果他们还没有的话)。教育工作者应该与本科生讨论它的使用和道德规范。在这个早期阶段,在没有任何外部规则的情况下,负责任的小组领导和教师必须确定如何诚实、正直和透明地使用它,并就一些参与规则达成一致。应该提醒所有研究的贡献者,他们将对自己的工作负责,无论它是否是用 ChatGPT 生成的。每个作者都应该负责仔细检查他们的文本、结果、数据、代码和参考文献。

其次,我们呼吁立即、持续地举办一个关于发展和负责任地使用LLM进行研究的国际论坛。作为第一步,我们建议为相关利益相关者举办一次峰会,包括不同学科的科学家、技术公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。已经组织了类似的峰会,以讨论和制定针对其他颠覆性技术(如人类基因编辑)的指导方针。理想的情况是,这种讨论应为所有相关方提出快速、具体的建议和政策。我们提出了一个非详尽的问题清单,可以在本次论坛上讨论(见“辩论问题”)。

 

需要解决的一个关键问题是对研究多样性和不平等的影响。LLM可能是一把双刃剑。它们可以帮助创造公平的竞争环境,例如消除语言障碍,使更多的人能够编写高质量的文本。但可能性是,与大多数创新一样,高收入国家和享有特权的研究人员将很快找到利用LLM的方法,以加速自己的研究并扩大不平等。因此,重要的是,辩论应包括来自研究中代表性不足的群体和受研究影响的社区的人,以利用人们的生活经历作为重要资源。

与社会的许多其他领域类似,科学现在面临着人工智能技术侵犯其最珍贵的价值观、实践和标准的清算。重点应放在拥抱机会和管理风险上。我们相信,科学将找到一种方法来从对话式人工智能中受益,而不会失去使科学工作成为最深刻和最令人满意的企业之一的许多重要方面:好奇心、想象力和发现。

在论坛上讨论关于对话AI的问题。

1. 哪些研究任务,应该或不应该交给LLM

2. 哪些学术技能和特征,对研究人员仍然至关重要?

3. 人工智能辅助研究过程中的哪些步骤需要人工验证?

4. 如何改变研究诚信和其他政策以解决LLM问题?

5. 如何将LLM纳入研究人员的教育和培训?

6. 如何帮助开发独立的开放LLM,确保能准确地代表科学知识?

7. LLM应有什么样的质量标准(例如,透明度、准确性、偏见和来源信用),哪些利益攸关方和LLM对标准负责?

8. 研究人员如何确保LLM促进研究公平,避免不平等扩大的风险?

9. 应如何利用LLM来加强开放科学的原则?

10. LLM对科学实践有什么法律影响(例如,与专利、版权和所有权有关的法律法规)?



https://blog.sciencenet.cn/blog-41174-1374960.html

上一篇:爱的生物物质基础是什么!
下一篇:ChatGPT和科学研究
收藏 IP: 117.135.15.*| 热度|

24 贾玉玺 彭真明 张俊鹏 王涛 高建国 晏成和 罗帆 周向军 徐芳 史晓雷 唐小卿 李陶 张学文 崔锦华 宁利中 郑新奇 李剑超 陈蕴真 吕秀齐 毕重增 鲍海飞 农绍庄 曾跃勤 孙学军

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 15:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部