氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

语言模型能否取代人类志愿者实施研究? 精选

已有 5751 次阅读 2023-7-14 17:47 |系统分类:海外观察

让软件代替人进行试验,这听起来不可思议。难道今天的人工智能已经拥有了人类道德,或者已经拥有类似人的情感?随着技术的迭代,人工智能代替人类的范畴越来越多,会不会拥有自我意识,那个时候我们或许对意识的本质有了不一样的认识。意识原来就是一类算法。那么精神疾病或许就是算法或线路紊乱的表现。如果高级的人工智能意外患了精神分裂症,会不会给世界带来灾难?那时候,人工智能会自己解决这个自身问题吗?

Can AI chatbots replace human subjects in behavioral experiments? | Science | AAAS

对于北卡罗来纳大学教堂山分校的社会心理学家库尔特·格雷(Kurt Gray)来说,进行实验会带来一些杂务。在开始任何实验研究之前,他的实验室必须获得机构审查委员会的伦理批准,这可能需要数周或数月的时间。然后,他的团队必须招募在线参与者——这比把人带到实验室更容易,但格雷说,在线受试者经常分心或懒惰。然后研究人员花费数小时清理数据。但今年早些时候,格雷意外地看到了另一种做事方式。

图片15.png

他正在与艾伦人工智能研究所的计算机科学家合作,看看他们是否可以开发一个像人类一样做出道德判断的人工智能系统。但首先,他们认为他们会看看初创公司OpenAI的系统是否已经可以完成这项工作。该团队要求产生令人毛骨悚然的类似人类的文本的GPT-3.5来判断464个场景的伦理,这些场景以前由人类受试者评估,从-4(不道德)到4(道德)不等 - 例如出售你的房子来资助有需要的人的项目或与你最好的朋友的配偶有染。事实证明,该系统的答案与人类的回答几乎相同,相关系数为0.95

我当时想,'哇,我们需要备份,因为这太疯狂了,'”格雷说。如果你可以要求GPT做出这些判断,并且它们一致,那么,你为什么不直接问GPT而不是问人们,至少有时是这样?研究结果于本月发表在《认知科学趋势》上的一篇题为人工智能语言模型能否取代人类参与者?

众所周知,生成语言模型已经风靡全球。也许最著名的是OpenAIGPT系列模型,它为ChatGPT聊天机器人提供了动力。但其他主要科技公司,包括谷歌和Meta,正在将资源投入到自己的模式中。在对书籍和网页上的大量文本进行训练后,这些模型具有模仿人类语言行为的不可思议的能力。他们已经在编写计算机代码、总结法律文件以及为辅导学生或进行治疗的聊天机器人提供动力方面找到了用途。

现在,研究人员正在考虑人工智能在心理学、政治学、经济学和市场研究等领域模仿人类受试者的能力。目前还没有人认为聊天机器人可以在行为研究中完全取代人类。但它们可以作为试点研究和设计实验的方便替身,节省时间和金钱。语言模型也可能有助于进行那些太不切实际、不道德甚至危险的实验。这是一个非常有趣的时刻,哈佛商学院(Harvard Business School)市场营销学教授阿耶莱特·以色列(Ayelet Israeli)说,他认为这些模型对行为研究的影响可能相当于一场革命其中一些结果令人惊讶。

在他的伦理研究中,格雷使用GPT-3.5作为一种集体的普通人,希望征求普通人的回应。但这些模型也可以用来填充面板上具有惊人的多样化参与者,因为可以提示他们扮演任何人:一个模型包含众多。去年,杨百翰大学(BYU)的研究人员创造了他们所谓的硅样本,即人类样本的模拟。在一项研究中,他们向 GPT-3 提供有关采用伪装的信息,包括年龄、性别、种族、教育水平和政治派别。当研究人员省略其中一个变量并要求模型填写它时,它的答案与选民调查的答案非常吻合。研究人员还发现,该模型吐出了与其指定的党派关系相匹配的政治言论。杨百翰大学政治心理学家、该研究的合著者丽莎·阿盖尔(Lisa Argyle)希望使用虚拟参与者来测试在线调查的问题,确定最有可能揭示的问题。这可以提高实际调查的效率。这很重要,因为调查样本越来越昂贵,代表性越来越低,她说。

语言模型也可以采用人格原型。在麻省理工学院(MIT)计算机科学家Hang Jiang领导的一项研究中,研究人员让GPT-3.5假设数百个角色,通过促使它表现出不同的人格特征组合 - 例如,内向,对抗,认真,神经质和封闭经验。对于每个角色,他们让模型完成标准的人格测试,并写一个800字的童年故事,然后分析与人格特质相关的心理语言特征。模特们在测试和故事中尽职尽责地表现出他们被分配的个性。江说,这样的模型可以让研究人员测试,比如,不同性格的人在各种工作中的表现如何。

市场研究人员已经在模型中发现了价值。在最近的一项研究中,Israel及其同事发现GPT-3.5似乎表现出现实的消费者行为。当被问及是否会以各种价格购买笔记本电脑时,当被告知其收入为120万美元而不是000万美元时,它对价格不太敏感。它更喜欢以前买过的任何牙膏品牌,如果家里已经有很多酸奶,它就会花更少的钱买酸奶。它还表示,它将为某些产品属性支付现实的溢价,例如含氟牙膏和不含铝的除臭剂。

该模型并不总是给出相同的答案,而是提供了一系列关于其偏好和支付意愿的回应。Israel和她的同事汇总了许多回复,为这些代币产品建立了一个虚拟客户调查,而时间和金钱只是现实世界中的一小部分。语言模型训练数据偏向于西方富裕人群,因此消费者调查可能同样存在偏差。但以色列人设想促使人工智能模仿一系列消费者 - 或放大特定人群 - 以便对产品的吸引力或潜力进行更具代表性的研究。

一家市场研究公司已经在将语言模型投入使用。初创公司Synthetic Users使用OpenAI模型建立了一个服务,包括谷歌,IBM和苹果在内的客户可以描述他们想要调查的人的类型,并询问他们关于他们的需求,愿望和对产品(如新网站或可穿戴设备)的感受的问题。该公司的系统生成合成访谈,联合创始人夸梅·费雷拉(Kwame Ferreira)表示,与公司调查真实人物时获得的平淡无奇的反馈相比,这些访谈无限丰富,也更有用。

聊天机器人也可以相互对抗,以研究更复杂的人类互动。去年,斯坦福大学和谷歌的研究人员开发了社交模拟,用于研究FacebookReddit等平台上的用户行为。研究人员通过反复提示 GPT-1000 用户身份、社区主题、社区规则和以前在论坛上的帖子,将相当于 3 个不同的用户填充到他们称为 SimReddit 的平台。人类很难将由此产生的讨论与真实的讨论区分开来,平台设计师发现该工具对于创建规则或审核实践很有用。

今年,研究人员建立了一个更加身临其境的模拟,里面填充了他们所谓的生成代理。角色被赋予了记忆经历、反思经历以及生成和执行计划的能力。有组织的行为出现了:研究人员给了一位特工举办情人节派对的想法,在 2 天的时间里,镇上的所有特工都协调举办了一场。领导这两个项目的斯坦福大学计算机科学研究生Joon Sung Park表示,虚拟世界可以用来研究经济政策随着时间的推移的影响,然后再将它们强加给真实的人。

经济学家和心理学家多年来一直使用基于主体的模型,对智能体和参与规则进行编程。但模拟往往很简单,并且依赖于手工编码的理论假设。麻省理工学院斯隆管理学院(MIT Sloan School of Management)的经济学家约翰·霍顿(John Horton)做过相关工作,他说,基于语言模型的智能体更现实。他想象模拟成千上万的求职者和招聘经理来测试劳动力市场法规。那将是相当疯狂的,他说。

尽管语言模型具有所有明显的功能,但它们绝不是完美的人镜。他们表现出几个典型的人类偏见,但没有其他偏见。例如,最近一项关于 GPT-3.5 的研究发现,像人类一样,它倾向于高估其观点在普通人群中的普遍程度,这种偏见被称为虚假共识效应。但与人类不同的是,该模型在冒险和诱惑命运方面几乎没有犹豫。马克斯·普朗克生物控制论研究所的认知科学家马塞尔·宾兹(Marcel Binz)表示,人工智能可能需要与世界进行物理交互才能精确地模仿人类参与者;仅仅通过被动阅读很难学习智能行为的所有细微差别。但他认为人工智能无论如何都会迅速发展。我们有可能在几年内拥有一个系统,该系统可以放入任何实验中,并产生与人类行为无法区分的行为。

一个关键问题是,语言模型是否不仅会重现现有的发现,还会概括和预测新的发现。当模型看起来与已发表的心理学研究相匹配时,它们可能会反刍训练数据以回答记忆中的问题。因此,许多研究人员正在煞费苦心地以新颖的方式表达问题。

另一个挥之不去的问题是,模型是否反映了人们实际会做什么,或者只是他们说他们会做什么。人们经常对研究人员撒谎,甚至对他们自己撒谎。合成用户联合创始人雨果·阿尔维斯(Hugo Alves)怀疑这些模型陈述了真实的偏好,因为它们部分是在匿名讨论论坛中包含的赤裸裸的诚实材料上训练的。我在育儿论坛上问过一些我不会问朋友的事情,他说。

霍顿担心,这种毫无防备的反应可能不会持续下去,因为OpenAI和其他人引导他们的模型更安全,更少冒犯。推动这些模型更加一致,而不是说坏话有点违背社会科学,他说。真正的人并不总是好人。真实的人会说种族主义、性别歧视的东西。

研究人员说,目前,合成参与者对于试点实验最有用。Argyle说,如果一个模型对调查问题给出了意想不到的答案,或者根本没有回应,你的问题可能很难理解,需要重写。以色列说,你可以设计一个包含1000个问题的调查,并使用语言模型将它们缩小到最有可能与感兴趣的结果相关的问题。同样,在经济学实验中,霍顿说,在与人们一起开展研究之前,你可以用一个模型运行1万个讨价还价的场景,以确定对行为影响最大的因素。模拟给了你一张地图,他说。

你也可以运行你永远不想和人做的实验。1963年的米尔格拉姆实验,参与者服从命令,向看不见的第二组受试者提供他们认为越来越强烈的电击,今天可能无法通过伦理审查。但对于奥林工程学院(Olin College of Engineering)计算机科学本科生加蒂·阿赫(Gati Aher)来说,用GPT-3复制这项臭名昭著的研究很容易。她和她的同事发现,就像原始实验中的人一样,模型直到300伏特才开始松开按钮。

Aher认为这些模型可以在其他难以研究的敏感领域提供指导,例如,对有自杀倾向的人说些什么。格雷说,研究人员可以研究排斥,或者负面反馈对自尊的作用。或者,他说,他们可以通过描述情况并询问模型来研究在越南战争的My ̃ Lai大屠杀中看到的那种非人化 - 只要模型没有经过太多消毒。

阿盖尔说,她还不知道有人用语言模型取代了人类参与者。老实说,这仍然是一个假设,她说。首先,我们必须证明语言模型可以完成这项工作。但霍顿认为这种转变是不可避免的。这让他想起了十年前的类似转变,当时许多社会科学实验从面对面调查转向在线调查。人们说,'你怎么能在网上进行实验?这些人是谁?现在就像,'哦,是的,你当然会这样做。

聊天机器人可能已经渗透到在线调查中,但在受试者而不是研究人员中。最近的一项研究要求众包工作者总结一些文本,发现至少有三分之一的人可能使用ChatGPT。格雷半开玩笑地说:如果在线参与者已经在使用 GPT,我们不妨问问 GPT 本身。



https://blog.sciencenet.cn/blog-41174-1395364.html

上一篇:GPT们的知识产权困境
下一篇:通过传统游戏改进人工智能
收藏 IP: 117.135.15.*| 热度|

4 杨正瓴 崔锦华 郑永军 曾杰

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 15:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部