博文

GPT们的知识产权困境

已有 8231 次阅读 2023-7-14 14:43 |系统分类:海外观察

生成式人工智能（AI）需要使用数据进行训练，例如需要用大量人类过去的文本进行训练。那么这些人类的知识产权如何体现，虽然许多人并没有提出这样的要求，但有人已经提出这种要求。那么如何克服和解决这个困难，是随着这种新技术产生伴随的必然要求。目前美国正在进行的这个诉讼如果原告胜诉，那么意味着这种技术使用会面临这版权的制约。

Generative AI meets copyright | Science

图片14.png

生成式人工智能（AI）是一种颠覆性技术，被公众以及热衷于加速广泛领域研究潜力的科学家和技术人员广泛采用。但一些专业艺术家、作家和程序员强烈反对将他们的创作用作生成人工智能系统的训练数据，以及可能与他们的作品竞争或取代他们的输出（1，2）。缺乏使用其原创作品的归属和补偿是加剧生成人工智能批评者的其他原因。美国目前正在进行的版权诉讼对生成人工智能系统的未来产生了重大影响。如果原告胜诉，在美国唯一合法的生成人工智能系统将是那些接受过公有领域作品培训或获得许可的系统，这将影响每个部署生成人工智能、将其集成到其产品中并将其用于科学研究的人。

是什么让生成式人工智能比以前的技术更具颠覆性？一个因素肯定是生成式人工智能技术的推出、采用和适应速度异常快。相比之下，法律和政策领域的发展必然要慢得多。此外，在新技术发展的早期阶段，评估如何平衡相互竞争的版权利益并不容易。生成人工智能似乎有望对专业作家和艺术家的职业生涯产生重大影响。例如，在 2023 年美国作家协会罢工期间，生成人工智能的使用是谈判的重点之一。编剧担心这些技术会取代他们或减少他们的报酬，这是可以理解的。

Stability AI正在为美国的两起版权侵权诉讼辩护，这两起诉讼的重点是广泛使用的图像生成器Stable Diffusion。Getty Images是其中一起诉讼的原告。另一个是代表视觉艺术家的集体诉讼，他们的图像稳定扩散是经过训练的。两起投诉均声称，Stability AI在摄取原告图像作为训练稳定扩散模型的输入时制作了原告图像的非法副本，并且稳定扩散响应用户提示生成的输出图像是侵权衍生作品。

第三起生成人工智能诉讼（Doe v. Github， Inc.）挑战了OpenAI对Codex的开发，Codex是一种基于数十亿行开源软件代码训练的大型语言模型（LLM）。同样面临挑战的是GitHub和OpenAI合作开发的Copilot，Copilot是一种编码助手工具，它利用Codex LLM为特定功能建议代码行以响应用户提示。（拥有GitHub并在OpenAI上投入巨资的Microsoft是被告。

有利于原告的裁决可能会引发“创新套利”，导致生成人工智能系统的开发人员将其运营基地转移到将获取受版权保护的作品作为训练数据视为合理使用的国家，就像以色列司法部在 2023 年初所做的那样。其他想要吸引人工智能创新的国家可能会效仿。如果法院支持Stability AI原告的主张，OpenAI的GPT4和谷歌的BARD也可能处于危险之中。他们的开发人员将成为后续诉讼的非常有吸引力的目标。

引入训练数据

稳定性AI尚未阐明其对版权指控的主要辩护。就投诉声称稳定扩散包含用作训练数据的受版权保护的图像的副本而言，这些主张在事实和技术上都是不准确的。稳定扩散包含大量参数，这些参数在数学上表示训练数据中体现的概念，但图像本身并未体现在其模型中。

训练模型首先将作为训练数据摄取的作品内容标记化为组件元素。该模型使用这些令牌来识别正在训练模型的内容特征之间的统计相关性（通常是在惊人的大尺度上）。从本质上讲，该模型正在提取和分析有关作品离散元素的精确事实和相关性，以确定哪些其他离散元素遵循或不遵循或接近这些元素，以及相关性在不同上下文中存在或不存在的频率。

对Stability AI的投诉忽视了版权的故意渗透性。版权法保护的只是作者贡献的原创表达（例如诗歌中的单词序列或音乐旋律）。版权的范围绝不延伸到作品中体现的任何思想、事实或方法，也不延伸到此类作品中常见的元素（根据版权的“场景公平”原则），能够以很少的方式表达的元素（根据“合并”原则），或受保护作品中描述的基本主题。例如，猫的照片并不赋予摄影师对猫的特征的专有权，例如它们的鼻子或面部表情。版权的范围也不延伸到读者可能从审查作者的作品中得出的推论，例如对概念之间联系模式或此类作品如何构建的见解。

此外，稳定性AI没有准备训练稳定扩散模型的数据集。这是由一个名为LAION（大规模人工智能开放网络）的非营利性德国研究机构完成的。LAION最初开发了LAION-5B，这是一个由5.85亿个超链接组成的数据集，这些超链接将来自开放互联网的图像和文本描述配对。LAION向公众免费提供此数据集，供那些想要使用它来构建生成模型的人用作训练数据。LAION还开发了LAION-5B的一个子集，称为LAION-Aesthetics，它由一些人类测试人员根据视觉吸引力和对人类审美评级的机器学习分析选择的600亿张图像的超链接组成。稳定扩散模型是在LAION-Aesthetics数据集上训练的。

稳定性 AI 使稳定扩散在开源的基础上可用。但是，它还提供订阅服务，以便那些缺乏资源或倾向于托管开源版本的人可以访问稳定扩散以生成图像以响应文本提示。然而，就摄取受版权保护的图像来训练生成模型而言，至少需要制作它们的临时或偶然副本，Stability AI 可能会争辩说，根据美国版权法，这是合理使用。

合理使用

根据美国法律，合理使用受版权保护的作品不侵犯版权。法院在评估合理使用抗辩时会考虑四个因素：（i）被质疑使用的目的，（ii）受版权保护作品的性质，（iii）获取的数量和实质性，以及（iv）被质疑的使用对受版权保护作品的市场或价值的影响。在合理使用案例中，目的和市场影响因素通常是最重要的决定因素，但在整体分析中必须将所有四个因素放在一起权衡。

研究、学术和教学是最受欢迎的合理使用目的，批评、评论和新闻报道也是如此。非商业用途通常比商业用途更受青睐。自1994年以来，当最高法院在Campbell v. Acuff-Rose Music， Inc.一案中考虑2 Live Crew对一首流行罗伊·奥比森（Roy Orbison）歌曲的说唱模仿的公平性以来，法院对受到质疑的使用目的是否具有“变革性”给予了相当大的重视。法院将这一术语定义为“添加具有进一步目的或不同性质的新事物，以新的表达、含义或信息改变第一个”[（3），第579页]。与非变革性使用相比，变革性用途也不太可能损害第一部作品的市场。例如，如果人们想听罗伊·奥比森的演绎，他们不太可能购买 2 Live Crew 的模仿。

Stability AI的原告可能会争辩说，将他们的作品作为训练数据摄取是非变革性的和商业性的。如果接受这两种考虑，都会反对合理使用。然而，一些法院判决裁定，对受版权保护的作品的类似数字使用符合变革性合理使用的条件。

例如，在Authors Guild v. Google， Inc.一案中，一家法院裁定，谷歌将研究图书馆馆藏中的数百万本书数字化，以索引其内容并提供一些书籍内容片段以响应用户搜索查询，这是一种“高度变革性”的合理使用。虽然谷歌的目的是商业的，但它与书籍的营销目的大不相同。谷歌的使用促进了公众对知识的更多获取，并使TDM研究和新的研究工具的创建成为可能。在菲尔德诉谷歌公司案中，一家法院认定，谷歌从菲尔德网站上缓存复制内容是一种变革性的合理使用。

在合理用例中，工作性质因素通常不重要。Stability AI的原告可能会争辩说，由于视觉艺术作品是版权的核心，因此这些作品的合理使用应该比作家协会案中争议的旧图书馆书籍更薄。一个相反的考虑是，视觉艺术家的作品经过稳定扩散训练，他们的作品在开放的互联网上可用，就像菲尔德在谷歌公司的例子中一样。

变革性目的往往会对其他合理使用因素产生溢出效应，尤其是金额因素。与作家协会案一样，Stability AI原告可能会强调，被告未经许可或补偿就制作了数百万件作品的精确副本。但是，法院通常会询问此类复制对于实现变革目的是否必要。在作家协会案中，法院承认谷歌无法索引书籍内容并提供摘要以响应搜索查询，除非它复制书籍的内容。稳定性AI可能会对图像的训练数据使用提出类似的必要性论证。

受到质疑的使用的市场效应有时被认为是最重要的合理使用因素。Getty对Stablity AI的投诉强调，它已经建立了一个许可市场，将其优质照片用作生成AI的训练数据。这支持了盖蒂的论点，即Stability AI从盖蒂网站上挪用了12万张图像损害了许可市场。针对Stability AI的集体诉讼索赔较弱，因为Stability AI不可能从视觉艺术家那里获得许可，这些视觉艺术家的作品被摄取以构建稳定扩散模型。

然而，许可市场的存在（或建立许可市场的意图）本身并不是一个可以解决变革性公平用例中争议的考虑因素。在 2021 年谷歌有限责任公司诉甲骨文美国公司的裁决中，最高法院驳回了甲骨文的论点，即谷歌使用 Java 应用程序编程接口（API）的部分内容剥夺了甲骨文声称有权获得的许可收入。法院指出，法院应考虑受到质疑的使用的公共利益以及潜在的收入损失，以及受到质疑的使用促成了多少创造力，并平衡这一点与潜在的损失。

这一考虑在甲骨文案中非常相关。谷歌的Android智能手机平台（其中使用了Java API）不仅是一个高度创新的新软件产品，而且它使数百万程序员能够利用他们对Java API的熟悉来创建数百万个程序。法院认为这种使用符合版权促进创造性进步的宪法目标。公众从Android的存在以及该平台上运行的大量应用程序的可用性中受益匪浅。

稳定性AI几乎肯定会引导甲骨文决策中的公共利益和创造性影响声明，并指出稳定扩散所体现的非凡创造力以及这种生成AI系统的数亿次创造性使用，包括使用它来产生想法或完善创作的图形艺术家。

Stability AI 原告可能会用最高法院 2023 年在安迪沃霍尔视觉艺术基金会诉戈德史密斯案中的裁决来反驳这一论点，这在一定程度上缩小了变革性目的的概念。被挑战的作品仅仅具有新的意义或信息已经不够了。现在更重要的是，被质疑的使用是否与第一部作品具有不同的目的，以及使用的商业性如何。稳定性AI将争辩说，摄取受版权保护的材料作为训练数据的目的与首次发布的作品非常不同。

可能不利于Stability AI合理使用辩护的是，Stable Diffusion生成的图像是否侵犯了其LLM训练所基于的图像作者的衍生作品权。一个相关的先例是世嘉企业有限公司诉Accolade，Inc.，其中上诉法院裁定Accolade在制作逆向工程副本时合理使用了世嘉软件，其合法目的是提取有关如何使其视频游戏与世嘉平台兼容的信息。如果Accolade出于非法目的进行逆向工程，例如为了从世嘉游戏中适当表达，那么其合理使用的辩护就会动摇。Accolade游戏与世嘉的游戏竞争，但法院认为这是版权应该促进的非侵权作品之间的竞争。

输出作为侵权

针对Stability AI的集体诉讼声称，Stable Diffusion制作的所有图像都是侵权衍生作品，因为所有图像都来自其模型训练的图像。它将稳定扩散描述为一种“拼贴工具”，其产出与艺术家自己的作品竞争，从而损害他们的市场。此外，稳定扩散的用户可以提交提示，请求以特定指定艺术家的“风格”生成特定主题的图像。

然而，法院长期以来一直认为，要侵犯著作权的衍生作品权，仅仅证明第二部作品是“基于”在先作品或其某些元素是不够的。第二部作品必须挪用了第一部作品的原始表达的大量内容。因此，除非法院决定推翻数十年来解释衍生作品权的先例并大幅扩大其范围，否则集体诉讼的输出侵权索赔很可能会失败。

集体诉讼承认，“一般来说，响应特定文本提示而提供的稳定扩散输出图像都可能与训练数据中的任何特定图像紧密匹配”[（4），第 23 页]。即使是“风格”权利要求似乎也很弱，因为版权法并不保护风格本身。只有当风格相似的作品的表达元素与该艺术家的特定作品中的原创表达之间非常相似时，才能认定侵权。

稳定扩散输出极不可能与其模型训练的特定图像基本相似的原因是稳定扩散如何组装它们。为图像生成AI构建模型需要处理大量输入数据以生成图像元素的抽象表示（例如猫在油毡地板上玩球）。扩散会在对图像元素进行编码时向图像元素添加噪点。文本描述和图像的配对允许模型对抽象表示进行聚类，以便类似的表示将接近（猫的表示靠近其他猫表示）。当用户输入指示软件生成特定类型输出的提示时，生成式 AI 系统使用复杂的统计计算来组装系统预测的输出将与用户请求的内容匹配。

但是，生成式 AI 输出有可能侵犯版权。如果相同的输入图像（例如，米老鼠）存在于许多训练模型的作品中，并且其开发人员没有遵循行业最佳实践来消除重复并使用输出过滤器来防止侵权，则用户提示可能会导致侵权输出（尽管该用户，而不是生成AI系统的开发人员，可能是侵权人）。具有讽刺意味的是，训练生成模型的数据集越大、越多样化，侵权输出的可能性就越小。

盖蒂对Stability AI的投诉在其侵权输出索赔中更为温和。然而，盖蒂也可能发现很难证明特定的稳定扩散输出与其拥有版权的特定照片实质上相似。通常，稳定扩散输出将与训练模型时的图像明显不同。

Stability AI原告可能会强调，Stable Diffusion产生的图像与市场上的作品竞争。他们可以指出最高法院的戈德史密斯裁决，该裁决将竞争用途视为与公平性的权衡。然而，戈德史密斯涉及两件在表达上基本相似的作品——戈德史密斯的普林斯照片和沃霍尔根据戈德史密斯的照片衍生的印刷品——它们在同一个杂志授权市场上竞争。稳定AI将依赖于Stable Diffusion输出相对于原告作品的差异，以区分其案件的背景与Goldsmith的背景。

结语

基于现有的先例以及对稳定扩散如何训练以及如何根据提示生成图像的理解，Stability AI似乎有合理的机会在版权索赔中获胜。（盖蒂案和集体诉讼案都提出了其他索赔，这些主张在这篇简短的文章中无法解决。然而，这些诉讼还处于非常早期的阶段，法院可能需要数年时间才能做出裁决。

2023 年 2023 月中旬，国会举行了关于生成人工智能和版权问题的首次听证会，证人在听证会上表达了不同观点。美国版权局非常清楚生成式人工智能在依赖版权的社区中引发的恐慌。该局于 <> 年春季举办了“倾听会”，为利益攸关方提供机会，解释他们对稳定性 AI 案例中提出的两个主要问题的看法：使用受版权保护的作品作为生成性人工智能系统的训练数据是否侵犯版权？生成式人工智能系统的输出是否侵犯了衍生作品？

在 2023 年夏季，该办公室计划允许有关各方提交书面意见，表达他们对这些问题和相关问题的看法和分析。办事处打算编写一份报告，阐述其结论，其中可包括立法建议。对生成人工智能的未来感兴趣的科学家最好提交评论。

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1395329.html

上一篇：ChatGPT的意外结果：写作面前人人平等
下一篇：语言模型能否取代人类志愿者实施研究？

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 117.135.15.*| 热度|

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

GPT们的知识产权困境

引入训练数据

合理使用

当前推荐数：5 推荐人：周忠浩 崔锦华 武夷山 张利华 李升伟

该博文允许注册用户评论请点击登录评论 (2 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

GPT们的知识产权困境

引入训练数据

合理使用

当前推荐数：5 推荐人： 周忠浩 崔锦华 武夷山 张利华 李升伟

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

当前推荐数：5 推荐人：周忠浩崔锦华武夷山张利华李升伟

该博文允许注册用户评论请点击登录评论 (2 个评论)