|
AI新闻主播的诞生及其影响【PNAS】
The making of an AI news anchor—and its implications | PNAS
去年夏天,编剧和表演者们与好莱坞大型电影制片厂进行了长达数月的罢工。一个特别棘手的争议点集中在是否使用生成性人工智能,也称为合成媒体或深度伪造技术。为了找到共同点,使AI和编剧能够共存,编剧们的和解要求不能使用AI生成的材料来削弱编剧的功劳,并且必须向编剧披露其使用情况。对表演者的保护包括制片厂为使用数字复制品给予表演者公平的报酬,以及工会和制片厂每年两次会面评估生成性人工智能的发展及其影响。
随着罢工的结束,政府在考虑适当的工人保护措施时,许多人继续努力应对生成性人工智能对创意职业的潜在影响:具体来说,它是什么,它能做什么,将来能做什么?
当娱乐人员考虑这些影响,政策制定者慢慢思考细节时,已经很清楚这项技术是极其令人信服的。一名计算机科学专业的大学生和一名计算机与信息科学教授,在这里与一家主要电视网络合作展示了,创建不仅包括表演者,而且包括人们信任报道世界事件真相的人物的AI复制品相对容易,并且越来越容易。一个明确的启示是:是时候停止思考未来的影响,开始考虑近期的影响,以及可能的法规和控制措施了。
不同的颠覆者
生成性人工智能指的是由AI驱动系统自动合成的文本、图像、音频或视频(1)。例如,仅从文本提示,这项技术可以编写电视剧本;仅从文本提示,它可以创建逼真的图片;仅从几分钟的音频,它可以克隆演员的声音;生成性人工智能可以将人的肖像插入到从大片电影到新闻广播的任何内容中。即使在早期阶段,这项技术也能创造出惊人逼真和有创意的内容。下一代肯定会在力量、真实性和可访问性方面有所改进。
当然,技术颠覆并不是新鲜事。使这次最新技术革命不同于其他革命的是,生成性人工智能是在大量人类生成的内容上进行训练,以模仿人类的创造力(2)。因为这些系统如果没有收集大量的人类创造的数据就无法存在,这种对劳动力市场的潜在破坏与例如在线银行和自动取款机对银行出纳员的破坏,或者在线搜索和预订对旅行社的破坏相比,性质上是不同的。
模仿新闻主播
我们与CNN合作,试图创作由安德森·库珀主持的《整个故事》节目的一个以AI为主题的开场白。简短的剧本不是AI生成的,但其余的库珀是。在这里,我们描述了如何在两个月的时间里,主要使用开源软件,一名大一本科生(第一作者)能够创建一个足以在网络电视上播出的令人信服的AI新闻主播。
创建一个AI主播的过程主要包括两个部分:1)生成主播朗读脚本的音频录音;2)从之前录制的主播视频片段开始,替换音频并修改主播的嘴和下半张脸以与新音频保持一致(所谓的唇同步深度伪造)。在描述这两个步骤时,我们故意省略了一些关于我们如何完成这些步骤的细节,以免进一步武装恶意行为者。但我们应该清楚:所有这些细节都不需要任何重大创新。
首先,我们从YouTube上的17分钟视频中提取了主播的声音示例。这些音频剪辑用于使用ElevenLabs的商业语音克隆工具(3)克隆主播的声音。一旦克隆成功,我们就可以从包含所需脚本的文本文件中生成一段主播声音的音频剪辑。
深度伪造通过四个连续的步骤实现:1)在整个源视频的每一帧中自动定位主播的头部;2)然后提供仅包含主播头部的裁剪视频以及生成的音频给开源软件VideoRetalking(4, 5)。对于每个视频帧,这个基于神经网络的系统生成一个新的嘴巴区域,与新的音频一致;3)然后将结果视频提供给开源软件CodeFormer(6, 7)。对于每个视频帧,这个生成对抗网络(GAN)通过例如去模糊和去除明显的畸形或缺失牙齿来提高生成嘴巴的质量;4)然后用新生成的脸替换源视频每一帧中的原始脸。最后,一些预处理和后处理自定义操作优化了最终深度伪造的外观。使用这种方法,我们创建了一个由Anderson Cooper朗读《整个故事》2023年12月3日节目开场白部分的AI生成版本。
我们确实遇到了一些限制。例如,大相机或头部运动使得保持时间连贯性变得困难,脚本中的不常见词汇偶尔会导致嘴巴形状的视觉明显错误。此外,我们创建的这种唇同步深度伪造类型在有大量视频可供选择时效果最佳。因此,目前像Anderson Cooper这样拥有大量数字足迹的人更容易被复制。然而,我们毫不怀疑这些限制将很快被下一代软件工具所克服——即使在我们从事这个项目的两个月里,这些工具也以惊人的速度发展。
从模仿到创造
生成性人工智能不仅可以复制,还可以产生全新的内容和人物。例如,基于图像的生成性人工智能可以产生高度逼真且可定制的不存在的人物图像。我们在图1中通过向一个开源图像生成器(8)提示“一张值得信赖的中年女性新闻主播坐在新闻桌前的照片”来创建了这个人。
将这个名叫Sarah Connor的人带入生活只需要几个步骤。接下来,我们让ChatGPT为我们的女主播写一句开场白,得到了“女士们先生们晚上好。我是Sarah Connor,这是你们每天的未来闪电。”然后,我们使用ElevenLabs定制的声音生成(3)生成了一个声音,提示为“中年、女性、美国、值得信赖的新闻主播”,为我们的女主播阅读AI生成的脚本提供了声音。最后,我们使用开源Spline运动模型(9)对单个图像的身体和头部进行动画处理,然后使用与上述相同的唇同步深度伪造管道将这位女主播带入生活。(有关生成的音频和视频,请参阅https://github.com/matyasbohacek/AI-news-anchor.)
这个新闻主播不是真的。像这样的人工智能创作非常容易制作。
整个AI主播的创作过程花了我们两天时间完成。尽管最终的视频质量不如Anderson Cooper的AI版本,但毫无疑问,很快就能够创造出高度逼真的AI表演者。
创建一个AI生成的新闻主播并非空想。早在2018年,中国国家通讯社新华社就开始尝试使用AI驱动的新闻主播(10)。网络从人类转向AI驱动的主播有明显的动机。有些动机似乎是合理的,比如AI主播的外观和声音可以根据不同的市场进行定制。其他影响则更加令人担忧,因为网络可能只是决定优先考虑利润并淘汰他们的人力资源,或者推动一致和定制的国家批准的叙事。
从失业到虚假信息 生成性人工智能也被用于传播虚假信息的人利用,他们借用可信的主播和名人的形象来推动谎言、阴谋论和金融诈骗(11)。在这里,使用可信和知名的人物形象尤其具有影响力。由于过去二十年的社交媒体和将内容在线发布的压力,新闻主播和名人在不知不觉中为他们的声音和形象提供了素材,供任何人捕捉和利用,无论是现在还是永远。
即使在没有使用深度伪造的情况下,虚假信息已经在从我们的COVID应对措施到我们对气候变化的反应、我们对地缘政治冲突的理解以及世界各地选举的完整性等方面播下了不确定性和两极分化的种子(12)。在这个已经存在问题的领域中引入新闻主播的深度伪造肯定会加剧我们理解和应对这个复杂且快速变化的世界的能力。
“公平使用”原则——编入美国1976年版权法——起源于18世纪和19世纪的普通法,旨在既保护创作者,又不会过于严格以扼杀创新和创造力。同样,创作者应该对他们的作品如何或是否被用于训练AI系统有一定的发言权。这可以通过在内容中插入一个难以察觉且具有弹性的数字水印来实现,该数字水印可以指定从版权所有权到其用于训练AI系统的使用规则的一切(13)。当然,会有一些恶意行为者选择无视这些规则。但他们系统的技术审计可以揭示未经授权使用的培训数据的存在(14)。
一些监管指南也可以减轻干扰。例如,美国参议院提出了《NO FAKES法案》。如果通过,该法案将为防止个人声音或形象的挪用提供新的联邦知识产权保护,禁止未经描绘的个人知情同意的情况下使用数字副本。而最近由欧盟通过的数字服务法案试图让社交媒体平台对推广危险的虚假信息负责。
有充分的证据表明,公众对生成性人工智能在创意领域的作用感到不安。最近的一项雅虎娱乐/YouGov民调(15)发现,61%的美国受访者认为增加AI生成的演员是一个坏主意,29%的人不确定;63%的人认为增加AI编写的剧本是一个坏主意,28%的人不确定。同样,美国版权局正在听取创作者要求保护免受生成性人工智能侵害的请求(16)。
真正的风险
我们将讨论的重点放在新闻主播上,因为他们在我们的社会中仍然保持着独特地位和信任感。然而,许多其他创作者可能会看到他们的行业受到干扰,包括作家、编辑、摄影师、平面设计师、演员、配音演员、音乐家以及支持这些创作者的巨大生态系统。我们认为有一条前进的道路可以让创作者从过去的劳动中受益,保护他们未来的生计,并利用这一令人兴奋的最新技术。除了对现有表演者的影响外,我们可能很快就会看到从沃尔特·克朗凯特到好莱坞巨星如西德尼·波蒂埃和凯瑟琳·赫本等历史人物的复活,引发了关于公众形象权的棘手问题(17)。
重要的是,这项技术不仅会存在于资源丰富的网络和好莱坞制片厂,而且将很快完全民主化。因此,对娱乐业乃至新闻业的干扰可能不会仅限于作家和表演者。那些倡导使用AI的制片厂也可能发现自己被小团队取代,这些团队将使用AI来编写和制作内容,然后将其在社交媒体上分发和盈利。
正如我们所展示的,这些风险并非假设。生成性人工智能技术已经存在,并且变得越来越强大,得到了广泛的应用。现在是讨论大规模虚假信息活动对劳动力的影响和干预措施的时候了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社