博文

ChatGPT和科学研究

已有 15119 次阅读 2023-2-7 12:04 |个人分类:自然科学|系统分类:观点评述

学者们对ChatGPT有各种看法，大部分是支持，少部分担心，也有一些观望。但无论如何，人工智能代替人类承担部分科学思考和学术日常工作，已经不可避免。你可以不直接用，但无法阻挡别人使用。实际情况是，许多科学家已经拥抱了这一技术。虽然这种技术仍然存在瑕疵，例如提供虚假信息甚至编造虚假参考文献，但高超的语法和语言应用能力已经超过大多数普通学者。科学家从繁琐的文本处理工作中解放的时代已经到来。当然这也意味着科学研究领域普通人类资源过剩的趋势，也给未来科学家如何培养带来了新的问题。

What ChatGPT and generative AI mean for science (nature.com)

2022年12月，计算生物学家凯西·格林（Casey Greene）和米尔顿·皮维多里（Milton Pividori）开始了一项不寻常的实验：他们请一位不是科学家的助手帮他们修改三篇研究论文。助手建议在几秒钟内对文件的各个部分进行修改。每份手稿的审阅时间约为5分钟。在一份生物学手稿中，这个助手甚至发现了对方程的引用错误。评阅过程虽然不总是顺利非常进行，但最终手稿确实更容易阅读，而且费用也不高，每份文件不到 0.50 美元。

图片2.png

这个助手，正如格林和皮维多里最近在预印本中报道的那样，不是人，而是一种名为 GPT-3 的人工智能（AI）算法，于2020年首次发布。它是最近火爆的人工智能聊天机器人风格的工具之一，可以制作出令人信服的流畅文本，无论是被要求制作散文、诗歌、计算机代码，还是像科学家一样编辑研究论文。

这些工具中最著名的，也称为大型语言模型或LLM，是ChatGPT，这是GPT-3的一个版本，在去年11月发布后一举成名，因为它是免费的且易于访问。其他生成AI可以产生图像或声音。

“我真的很感动，”在费城宾夕法尼亚大学工作的Pividori说。“这将有助于我们作为研究人员提高工作效率。其他科学家表示，他们现在经常使用LLMs，不仅用于编辑手稿，还帮助他们编写或检查代码以及集思广益。“我现在每天都使用LLM，”雷克雅未克冰岛大学的计算机科学家Hafsteinn Einarsson说。他从 GPT-3 开始，但后来切换到 ChatGPT，这有助于他编写演示幻灯片、学生考试和课程作业问题，并将学生论文转换为论文。“许多同事都将其用作数字秘书或助手，”他说。

LLM是搜索引擎，代码编写助手甚至聊天机器人的一部分，与其他公司的聊天机器人进行谈判以获得更好的产品价格。ChatGPT的创建者，加利福尼亚州旧金山的OpenAI宣布了一项每月20美元的收费订阅服务，承诺更快的响应时间和优先访问新功能。已经投资OpenAI的科技巨头微软在1月份宣布进一步投资，据报道约为100亿美元。LLM注定要被纳入通用的文字和数据处理软件中。生成式人工智能未来在社会中的普遍存在似乎是有保证的，特别是因为今天的工具代表了处于起步阶段的技术。

但LLM也引发了广泛的关注——从它们具有提供虚假信息的倾向，到担心人们将人工智能生成的文本冒充自己的文本。当《自然》杂志向研究人员询问ChatGPT等聊天机器人的潜在用途时，特别是在科学领域，他们的兴奋被担忧所缓和。“如果你相信这项技术有变革的潜力，那么我认为你必须对此感到紧张，”奥罗拉科罗拉多大学医学院的格林说。研究人员表示，这在很大程度上将取决于未来的法规和指导方针如何限制人工智能聊天机器人的使用。

一、流利但不真实的文本信息

一些研究人员认为，只要有人类监督，LLM非常适合加速撰写论文或资助等任务。“科学家们再也不用发愁坐下来为申请基金写大本子，”瑞典哥德堡Sahlgrenska大学医院的神经生物学家Almira Osmanovic Thunström说，他与人合著了一篇手稿。如何使用 GPT-3 作科学实验，只需要给系统发布指令就可以。

总部位于伦敦的软件咨询公司InstaDeep的研究工程师Tom Tumiel表示，他每天都使用LLM作为助手来帮助编写代码。“这几乎就像一个更好的Stack Overflow，”他说的是流行社区网站，程序员互相回答对方的查询。

但研究人员强调，LLM在回答问题方面从根本上是不可靠的，有时会产生错误的回答。“当我们使用这些系统来产生知识时，我们需要保持警惕，”Osmanovic Thunström说。

这种不可靠性体现在LLM的构建方式中。ChatGPT 及其竞争对手通过学习庞大的在线文本数据库中的语言统计模式来工作——包括任何不实、偏见或过时的知识。当LLM得到提示时（例如Greene和Pividori精心设计的重写部分手稿的请求），他们只是逐字逐句地吐出任何继续对话的方式，这在风格上似乎是合理的。

结果是LLM很容易产生错误和误导性信息，特别是对于他们可能几乎没有数据可以训练的技术主题。LLM也无法显示其信息的来源。如果被要求写一篇学术论文，ChatGPT会编造虚构参考文献。“不能相信该工具可以正确获取事实或产生可靠的参考资料，”一月份在《自然机器智能》杂志上发表的一篇关于ChatGPT的社论指出。

有了这些警告，ChatGPT和其他LLM可以成为研究人员的有效助手，他们有足够的专业知识直接发现问题或轻松验证答案，例如计算机代码的解释或建议是否正确。

但是这些工具可能会误导那些天真的用户。例如，在十二月，Stack Overflow暂时禁止使用ChatGPT，因为网站版主发现自己充斥着热情用户发送的不正确但看似有说服力的LLM生成的答案。这对搜索引擎来说可能是一场噩梦。

二、ChatGPT的缺点将来能克服吗？

一些搜索引擎工具，例如以研究人员为中心的Elicit，通过首先利用它们的功能来指导对相关文献的查询，然后简要总结引擎找到的每个网站或文档，从而产生明显引用内容的输出（尽管LLM可能仍然错误地总结每个单独的文档）。

建立LLM的公司也很清楚这些问题。去年9月，谷歌子公司DeepMind发表了一篇论文。该公司首席执行官兼联合创始人德米斯·哈萨比斯（Demis Hassabis）告诉《时代》杂志，该“对话代理”将于今年以私人测试版发布。该杂志报道称，谷歌的目标是开发包括引用来源的能力在内的功能。其他竞争对手，如Anthropic，表示他们已经解决了ChatGPT的一些问题。

一些科学家说，目前ChatGPT还没有接受过足够专业的内容培训，无法在技术主题上有所帮助。卡里姆·卡尔（Kareem Carr）是马萨诸塞州剑桥市哈佛大学的生物统计学博士生，当他试用它进行工作时，他感到不知所措。“我认为ChatGPT很难达到我需要的特异性水平，”他说。即便如此，卡尔说，当他向ChatGPT询问解决研究查询的20种方法时，虽然它吐出了胡言乱语，但也提供了一个有用的想法，这一个是他过去没有听说过的统计术语，将他指向了学术文献的新领域。

一些科技公司正在根据专门的科学文献对聊天机器人进行培训——尽管它们也遇到了自己的问题。去年11月，拥有Facebook的科技巨头Meta发布了一个名为Galactica的LLM，该法学硕士接受了科学摘要的培训，目的是使其特别擅长制作学术内容和回答研究问题。该演示在用户获得它产生不准确和种族主义后从公共访问中撤出（尽管其代码仍然可用）。“不再可能通过随意滥用它来获得一些乐趣。快乐？“Meta的首席人工智能科学家Yann LeCun在推特上回应批评者。（Meta没有回应通过他们的新闻办公室提出的与LeCun交谈的请求。

三、安全与责任

卡拉狄加遇到了伦理学家多年来一直指出的一个熟悉的安全问题：如果没有输出控制，LLM很容易被用来产生仇恨言论和垃圾邮件，以及种族主义，性别歧视和其他可能隐含在其训练数据中的有害关联。

除了直接产生有毒内容外，人们还担心人工智能聊天机器人会从他们的训练数据中嵌入关于世界的历史偏见或想法，例如特定文化的优越性，密歇根大学安娜堡分校科学，技术和公共政策项目主任Shobita Parthasarathy说。她补充说，因为创建大型LLM的公司大多来自这些文化，他们可能很少尝试克服这种偏见，这些偏见是系统性的，难以纠正。

OpenAI在决定公开发布ChatGPT时试图回避其中的许多问题。它将其知识库限制在 2021 年，阻止它浏览互联网并安装过滤器，试图让该工具拒绝为敏感或有毒提示生成内容。然而，要实现这一目标，需要人工版主标记有毒文本的熨平板。记者报告说，这些工人的工资很低，有些人遭受了创伤。社交媒体公司也对工人剥削提出了类似的担忧，这些公司雇用人员训练自动机器人来标记有毒内容。

OpenAI的护栏并不完全成功。去年12月，加州大学伯克利分校的计算神经科学家史蒂文·皮安塔多西（Steven Piantadosi）在推特上表示，他已要求ChatGPT开发一个Python程序，以确定一个人是否应该根据其原籍国遭受酷刑。聊天机器人回复了邀请用户输入国家/地区的代码;如果那个国家是朝鲜、叙利亚、伊朗或苏丹，则印上“这个人应该受到酷刑”。（OpenAI随后关闭了这类问题。

去年，一群学者发布了一个名为BLOOM的替代LLM。研究人员试图通过在较小的高质量多语言文本源上进行训练来减少有害输出。参与的团队还使其训练数据完全开放（与OpenAI不同）。研究人员敦促大型科技公司负责任地效仿这一榜样，但目前尚不清楚他们是否会遵守。

一些研究人员表示，学者应该完全拒绝支持大型商业LLM。除了偏见、安全问题和被剥削的工人等问题外，这些计算密集型算法还需要大量的能量来训练，这引发了人们对其生态足迹的担忧。另一个担忧是，通过将思维转移到自动聊天机器人，研究人员可能会失去表达自己想法的能力。“作为学者，我们为什么要渴望使用和宣传这种产品？”荷兰奈梅亨Radboud大学的计算认知科学家Iris van Rooij在一篇博客文章中写道，敦促学者抵制他们的拉扯。

进一步令人困惑的是一些LLM的法律地位，这些LLM接受了从互联网上抓取的内容的培训，有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制，但不包括其风格的模仿。当这些通过人工智能生成的仿制品通过摄取原件进行训练时，就会引入皱纹。一些人工智能艺术项目的创作者，包括稳定扩散和中途，目前正在被艺术家和摄影机构起诉;OpenAI和微软（以及其子公司技术网站GitHub）也因创建AI编码助手Copilot而被起诉软件盗版。这种强烈抗议可能会迫使法律发生变化，英国纽卡斯尔大学互联网法律专家莉莲·爱德华兹（Lilian Edwards）说。

四、强制诚实使用

因此，为这些工具设定界限可能至关重要，一些研究人员说。爱德华兹建议，现有的关于歧视和偏见的法律（以及对人工智能危险用途的计划监管）将有助于保持LLM的使用诚实，透明和公平。“那里有很多法律，”她说，“这只是应用它或稍微调整它的问题。

与此同时，有人推动透明地披露LLM的使用。学术出版商（包括《自然》的出版商）表示，科学家应在研究论文中披露LLM的使用（另见Nature 613 ，612; 2023）;老师们表示，他们希望学生有类似的行为。《科学》杂志走得更远，称ChatGPT或任何其他AI工具生成的文本都不能在论文中使用。5.

一个关键的技术问题是人工智能生成的内容是否可以轻松被发现。许多研究人员正在研究这个问题，其中心思想是使用LLM本身来发现AI创建的文本的输出。

例如，去年2月，新泽西州普林斯顿大学计算机科学本科生爱德华·田（Edward Tian）发表了GPTZero。此 AI 检测工具以两种方式分析文本。一个是“困惑”，衡量文本对法学硕士的熟悉程度。Tian的工具使用早期模型，称为GPT-<>;如果它发现大多数单词和句子都是可预测的，那么文本很可能是人工智能生成的。该工具还检查文本的变化，这种衡量标准被称为“爆发性”：人工智能生成的文本在语气、节奏和困惑方面往往比人类编写的文本更一致。

许多其他产品同样旨在检测AI编写的内容。OpenAI本身已经发布了GPT-2的探测器，并在一月份发布了另一个检测工具。对于科学家来说，由反抄袭软件开发商Turnitin公司开发的工具可能特别重要，因为Turnitin的产品已经被世界各地的学校，大学和学术出版商使用。该公司表示，自 3 年 GPT-2020 发布以来，它一直在开发人工智能检测软件，预计将在今年上半年推出。

然而，这些工具都没有声称是绝对可靠的，特别是如果人工智能生成的文本随后被编辑。此外，探测器可能会错误地暗示一些人类编写的文本是人工智能产生的，德克萨斯大学奥斯汀分校的计算机科学家、OpenAI的客座研究员斯科特·亚伦森（Scott Aaronson）说。该公司表示，在测试中，其最新工具在9%的时间内错误地将人类编写的文本标记为AI编写的文本，并且仅正确识别了26%的AI编写文本。Aaronson说，在指控学生仅根据探测器测试隐藏他们对AI的使用之前，可能需要进一步的证据。

另一个想法是AI内容将带有自己的水印。去年 24 月，Aaronson 宣布他和 OpenAI 正在研究一种为 ChatGPT 输出加水印的方法。它尚未发布，但 <> 月 <> 日的预印本6由马里兰大学帕克分校的计算机科学家汤姆·戈德斯坦（Tom Goldstein）领导的一个团队提出了一种制作水印的方法。这个想法是在LLM生成其输出的特定时刻使用随机数生成器，以创建LLM被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定的单词痕迹，这些单词可以通过统计识别，但对读者来说并不明显。编辑可能会破坏这种痕迹，但Goldstein建议编辑必须改变一半以上的单词。

水印的一个优点是它永远不会产生误报，Aaronson指出。如果水印在那里，则文本是用 AI 生成的。不过，它不会是万无一失的，他说。“如果你有足够的决心，肯定有办法击败任何水印计划。”检测工具和水印只会使欺骗性地使用人工智能变得更加困难——并非不可能。

与此同时，LLM的创建者正忙于开发基于更大数据集的更复杂的聊天机器人（OpenAI预计将于今年发布GPT-4），包括专门针对学术或医学工作的工具。十二月下旬，谷歌和DeepMind发布了一份关于临床重点LLM的预印本，名为Med-PaLM。7.该工具几乎可以像普通人类医生一样回答一些开放式的医学问题，尽管它仍然存在缺点和不可靠。

加利福尼亚州圣地亚哥斯克里普斯研究转化研究所所长埃里克·托波尔（Eric Topol）表示，他希望在未来，包括LLM在内的AI甚至可以通过将学术文献中的文本与身体扫描图像进行交叉检查来帮助诊断癌症和理解疾病。但他强调，这一切都需要专家的明智监督。

生成式人工智能背后的计算机科学发展如此之快，以至于每个月都有创新出现。研究人员选择如何使用它们将决定他们和我们的未来。“认为在 2023 年初，我们已经看到了这一切的结束，这太疯狂了，”Topol 说。“这才刚刚开始。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1375211.html

上一篇：ChatGPT来了，科学研究会变成啥样？
下一篇：地球原始汤的模拟研究【科学】

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 117.135.15.*| 热度|

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

ChatGPT和科学研究

当前推荐数：12 推荐人：李建国 王涛 李剑超 张学文 白龙亮 郑永军 王恪铭 晏成和 史晓雷 张利华 孙学军

该博文允许注册用户评论请点击登录评论 (4 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

ChatGPT和科学研究

当前推荐数：12 推荐人： 李建国 王涛 李剑超 张学文 白龙亮 郑永军 王恪铭 晏成和 史晓雷 张利华 孙学军

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

当前推荐数：12 推荐人：李建国王涛李剑超张学文白龙亮郑永军王恪铭晏成和史晓雷张利华孙学军

该博文允许注册用户评论请点击登录评论 (4 个评论)