大交叉:架通自然科学与社会科学分享 http://blog.sciencenet.cn/u/majl 中国科学院广州地球化学研究所 长沙非线性特别动力工作室

博文

我在Suno上“创作”,是在进行艺术表达, 还是在为科技巨头“免费打工”?

已有 354 次阅读 2026-5-28 22:30 |个人分类:人工智能|系统分类:科普集锦

AI与声音的迷思》系列之

 

我在Suno“创作”,是在进行艺术表达,

还是在为科技巨头“免费打工”?

——声音主权、数字劳工与平台资本主义的三重审视

 

 

马金龙(中国科学院)

 

【导语】2024年6月,美国唱片业协会(RIAA)代表环球音乐、索尼音乐等全球最大唱片公司,正式对SunoUdio提起版权侵权诉讼。这场官司的核心争议并非某首歌曲遭到剽窃,而是:一个AI音乐平台是否有权在未经许可的情况下,使用海量受版权保护的录音来训练自身的算法模型?诉讼背后还有一个更少被追问的问题:当数百万普通用户在这些平台上愉快地“创作”时,他们的每一次点击、每一段上传的声音,究竟在为谁创造价值?

在本系列前三篇文章中,我们从哲学与认知层面辨析了AI歌声“情感表达”与“情感体验”的分离(系列之一),借范竞马先生的震撼案例追问了AI“完美”歌唱背后的艺术本质(系列之二),并从技术原理到伦理边界系统剖析了声音克隆与歌声转换的实现机制(系列之三)。当我们掌握了“是什么”和“怎么做”之后,一个更尖锐的“为什么”与“谁受益”问题浮出水面。

本文将从三个层面展开分析:第一,通过Holly+Suno的制度性对比,揭示两种截然不同的“声音主权”模式;第二,借助“数字劳工”与“数据殖民主义”理论,解析平台资本主义的价值汲取逻辑;第三,区分不同类型的“数据贡献”并结合中国法律语境,为读者提供更清醒的使用策略。

 

一、两种截然不同的“声音实验”:Holly+ Suno(一)Holly+的“主权赋权”模式

2021年,美国实验音乐家霍莉·赫恩登(Holly Herndon)与技术合伙人马特·德拉霍斯特(Mat Dryhurst)联合发布了Holly+”项目。赫恩登将自己的声音深度学习模型作为开放工具向公众发布,任何人均可免费使用她的“声音化身”进行创作。

该项目的核心理念在于对“声音主权”(Voice Sovereignty)的主动建构:艺术家不是被动地等待法律保护,而是通过技术架构与治理机制,主动划定自己声音被使用的边界与条件。Holly+建立了一个DAO(去中心化自治组织)来共同治理这一“声音化身”,并公开声明所有权与收益规则——使用Holly+模型创作的商业作品,须经社群审核,其收益在原创作者、DAO治理基金与赫恩登本人之间按约定比例分配。

【说明】由于Holly+属于持续演化中的艺术实验项目,其DAO治理规则与收益分配比例随版本迭代有所调整,本文不引用具体百分比以避免失实。有意深入研究者可参阅Holly Herndon官网及hollyplusdao.com的最新治理文档。

需要特别指出的是,Holly+在规模上是一个面向先锋音乐圈的小众实验,其DAO的实际参与人数有限,商业运转也远未达到成熟阶段。因此,将其与面向数亿用户的Suno进行比较,并非要论证Holly+模式可以直接替代Suno”,而是要借助这一“理念参照”,揭示两种完全不同的制度逻辑的根本差异。

(二)Suno“平台商品化”模式

Holly+的先锋探索形成对照的,是Suno所代表的商业平台逻辑。Suno2023年正式发布,2024年完成B轮融资约1.25亿美元,投后估值约达5亿美元,是迄今融资规模最大的AI音乐生成平台之一。

从用户体验角度看,Suno极大降低了音乐创作的门槛——只需输入文字提示词,数十秒内便可生成包含人声、伴奏与完整结构的歌曲。然而,在这层便捷界面之下,是一套与Holly+截然不同的权利架构。

Suno声音克隆功能(Voice Model)为例,根据其服务条款(Terms of Service),用户上传声音样本时,须授予平台一项“全球性、免版税、可转授权、永久性”的广泛许可,允许平台将上传内容用于“运营、改进、推广服务及训练AI模型”,且无需向用户支付额外报酬。这一条款意味着:用户以为是在进行个人创作,实际上已将最具生物唯一性的个人特征——声纹——以几乎不可撤销的方式贡献给了平台的算法训练体系。

【核查提示】Suno服务条款会定期更新,建议读者在使用Voice Model功能前,直接查阅suno.com官网最新版条款中的license”及“user content”相关章节。

 

下表对两种模式的核心维度进行系统对比:

 

1  Holly+模式与Suno模式的制度性对比

 

维度

Holly+ 模式

Suno 模式

项目性质

艺术家主导的实验性公益项目

风险投资驱动的商业平台

声音所有权

艺术家保留主权,明确授权范围

用户授予平台全球性、永久性许可

收益分配

多方按约定比例分成(DAO治理)

价值主要流向平台(订阅收入/估值)

数据用途

规则公开透明,用于社群创作

含训练下一代AI模型(条款授权)

用户角色

共建者/主权持有者

数据贡献者/数字劳工

规模与受众

小众音乐圈,艺术宣言意义大于商业价值

面向数亿普通用户,商业目标驱动

 

二、三类“数据贡献”:风险不对等的隐形合同

在讨论“为科技巨头免费打工”这一命题时,一个常被忽视的重要区分是:并非所有的“数据贡献”在性质和风险上都是相同的。笼统地将平台上的一切用户行为都视为同等程度的“剥削”,既不够精确,也可能削弱批判的有效性。

Suno为例,用户在平台上产生的数据可粗略划分为三个层次,它们在法律敏感度、潜在风险和现有保护程度上差异显著:

 

2  Suno平台三类用户数据的性质与风险差异

 

数据类型

具体形式

法律敏感度

主要风险

声纹/生物特征数据

Voice Model上传的声音样本

极高(PIPL28条列为敏感信息)

永久被用于AI训练;生物特征不可更改

行为交互数据

提示词调整、生成选择、播放记录

中等(普通个人信息)

偏好建模、算法优化、商业推荐

创作内容数据

生成歌曲、提示词文本

中等(著作权归属存争议)

版权不明,平台可能享有再利用权

 

声纹数据:最高风险的不可逆贡献

在上述三类数据中,声纹数据(即用于创建Voice Model的声音样本)是性质最为特殊、风险最高的一类,需要单独强调。其特殊性在于:

第一,不可更改性。密码泄露后可以重设,但声纹一旦被大规模采集并嵌入训练集,无法像个人密码那样“注销重置”。

第二,多用途潜力。训练好的声音模型不仅可用于歌声合成,还可潜在用于声纹识别、身份验证等非音乐领域,远超用户上传时的预期用途。

第三,法律保护的不对称。中国《个人信息保护法》(PIPL2021年)第28条明确将生物特征信息列为“敏感个人信息”,处理须取得单独同意并告知必要性,且不得超出必要限度。然而,当用户在使用境外平台时,这一本土法律保护如何跨境适用,在实践中仍面临较大的法律真空。欧盟《通用数据保护条例》(GDPR)的第9条同样将生物特征数据列为特殊类别,给予最高级别保护,但平台通过格式合同获取“同意”的做法,在监管层面仍存在争议。

 

三、诉讼风暴:Suno不只是“采集用户数据”那么简单

理解Suno的运作逻辑,需要同时看到它与普通用户之间的数据关系,以及它与整个版权体系的更大冲突。

2024年6月,美国唱片业协会(RIAA)代表环球音乐集团、索尼音乐娱乐、华纳音乐集团等主要唱片公司,在波士顿联邦地方法院对Suno提起版权侵权诉讼。诉讼指控Suno在训练其AI模型时,未经授权大规模使用受版权保护的商业录音,潜在赔偿金额可能达数十亿美元。Suno方面的抗辩核心是援引“合理使用”(Fair Use)原则,主张AI训练属于变革性使用,不构成侵权。同期,同类诉讼也对竞争对手Udio提起。

这场诉讼对我们理解“谁在为谁打工”至关重要:

其一,Suno的训练数据,不仅来自用户上传的声音,还来自此前数十年间全球音乐人创作的海量商业录音。这些音乐人从未同意自己的作品被用于训练商业AI,更遑论从平台的商业估值中分得一杯羹。

其二,Suno在法庭上争取的“合理使用”保护,若获法院支持,将极大降低其未来获取训练数据的成本,进一步强化其商业护城河——而这一“护城河”,最终是由无数创作者(包括普通用户)的劳动与数据共同筑成的。

这场版权诉讼尚未有最终判决(截至本文撰写时),但它已深刻揭示了AI音乐平台商业模式的结构性矛盾:平台的价值依赖于既有创作者的历史积累,同时也依赖于现有用户的持续贡献,而二者在价值分配中均处于弱势地位。

 

四、“数字劳工”与“数据殖民主义”:理论框架的溯源与应用

要理解上述现象背后的深层逻辑,我们需要借助两个相互关联的理论框架。

(一)数字劳工:免费创造的有偿价值

早在2000年,意大利学者提齐亚娜·特拉诺瓦(Tiziana Terranova)就在其奠基性论文《自由劳动》(Free Labor: Producing Culture for the Digital Economy)中提出了一个洞见:互联网经济的核心,是将用户的“自由时间”转化为不支付报酬的生产性劳动。此后,学者克里斯蒂安·福克斯(Christian Fuchs)将这一框架系统化,将用户在数字平台上的一切交互活动(浏览、点赞、上传、评论)定义为“数字劳动”(Digital Labour——它是无偿的,但它生产了有偿的数据商品,为平台贡献了核心价值。

在这一框架下,Suno用户的每一次“提示词调整”,本质上是在帮助平台的算法工程师完成昂贵的人工标注与偏好学习工作;每一次在多个生成版本中“挑选最好的那首”,实际上是在提供机器学习中最宝贵的“人类反馈强化学习”(RLHF)数据。这些数据在AI训练中的经济价值是可观的,但用户得到的报酬,是服务本身而非货币。

(二)数据殖民主义:汲取关系的地缘政治化

在数字劳工理论的基础上,科技社会学家尼克·科尔德里(Nick Couldry)与乌尔里希·梅西亚斯(Ulises Mejias)在其2019年著作《连接的代价》(The Costs of Connection)中提出了“数据殖民主义”(Data Colonialism)这一概念。他们认为,21世纪的大型科技平台与历史上的殖民资本主义存在结构性相似:后者通过圈占土地与劳动力汲取资源,前者则通过“连接”服务汲取个人数据——而数据正在成为这个时代最核心的生产要素。

值得注意的是,“数据殖民主义”这一隐喻,在应用于具体商业案例时应当审慎。科尔德里与梅西亚斯本人也明确指出,他们的目的是揭示一种权力结构的相似性,而非在历史道德上完全等同于殖民主义暴行。用于批判Suno等平台时,这一框架的有效性在于指出:平台通过提供“免费”或低价工具,系统性地将用户的个人数据(包括声纹这一生物特征)转化为可用于商业盈利的资产,而这种汲取关系在现有服务条款中是经过“同意”但并不对等的。

 

五、新劳动形态:从“歌唱”到“数据-策展-调优”

Suno等平台的出现,不仅重构了价值分配,也深刻重塑了“音乐创作”这一劳动的形态本身。下表呈现了这种转变:

 

3  音乐创作劳动形态的转变与隐性数据贡献

 

劳动形态

传统音乐创作

Suno平台上的操作

隐性贡献(平台获益)

核心技能

作词/作曲/编曲/演唱/混音

提示词撰写与风格策展

优化提示词数据库

声音使用

完整的声乐与表演技巧

上传样本创建声音模型

扩充多样化声纹训练集

结果筛选

自我评判与修改(高迭代成本)

从批量生成中挑选最优版本

提供质量反馈标注(RLHF数据)

门槛与报酬

高专业门槛,有报酬或版税

低门槛,享受免费/低价服务

无货币报酬,以服务换数据

 

去技能化:双重面向

上述转变催生了学界所谓的“去技能化”(De-skilling)效应——传统专业技能(和声学、演唱技巧、编曲能力)在很大程度上被系统代劳,准入门槛大幅降低。这对职业音乐人的冲击已开始显现:部分录音室配唱、商业背景音乐等低附加值工种已面临直接替代压力。

然而,这一图景并非全然悲观,需要呈现其另一面:

一方面AI工具催生了一批“提示词音乐师”(Prompt Musician)和AI音频后期处理专家等新型角色,部分职业音乐人已成功将AI工具整合进自己的创作流程,实现生产效率的大幅提升。

另一方面,“去技能化”并非音乐领域独有。印刷术、录音技术、数字音频工作站(DAW)的出现,均曾引发类似的“技能替代”焦虑,但也均创造了新的职业空间。关键问题不是“是否去技能化”,而是“谁在这一过程中获益,谁在承担转型成本”。

这一“去技能化”过程,同时制造了另一种值得警惕的心理效应——“能力幻觉”(Illusion of Competence):用户因轻松生成了一首“好听的歌”而产生自己“会作曲”的错觉。这不仅可能妨碍真正的音乐学习,还可能使用户在不了解自身权利与边界的情况下,持续贡献出高价值的创作数据与声纹数据。

 

六、清醒的声音主权者:而非被动的数字劳工

回到最初的问题:在Suno“创作”,究竟是艺术表达还是免费打工?深入分析后,我们的答案是:两者兼而有之,且程度因使用方式而异。

如果你使用Suno的基础文本生成功能,偶尔生成背景音乐或为个人创意寻找灵感,主要贡献的是行为交互数据,享受了便捷服务作为回报——这更接近于“以数据换服务”的常规数字经济交换,其“剥削程度”与使用任何免费互联网产品相差不大。

如果你上传了自己的声音样本以创建Voice Model,那么情况截然不同——你贡献的是不可更改的生物特征信息,依据平台条款,这将被用于AI模型的长期迭代训练。在获得“声音克隆”便利的同时,你实际上签署了一份权利高度不对等的隐形合同。

在这一认知基础上,以下三个方向值得每一位使用AI音乐工具的人认真思考:

《分级使用,知风险再行》:在上传任何声音样本前,务必仔细阅读平台当前版本的服务条款,特别是User Content”与“License”条款。对于生物特征数据,应采取比普通内容更高的谨慎标准。

《推动数据权利的制度化》:个体的谨慎无法改变平台规则的结构性不对等。更根本的改变,来自监管层面的推动——要求平台对AI训练数据来源进行透明披露,保障创作者在其声音被商业化时获得合理补偿的权利。欧盟《AI法案》(AI Act2024年正式通过)与中国《生成式人工智能服务管理暂行办法》(2023年)均已开始触及这一方向。

《关注替代性模式的探索》:Holly+等实验虽然规模有限,但它们证明了“使用者可以拥有主权”这一命题在技术上的可行性。学界与艺术界正在探索的公平数据联盟、集体许可协议、区块链版权追踪等模式,可能为未来更公平的AI创作生态提供制度基础。

最终,我们追求的,不是成为对技术工具一无所知的恐惧者,也不是沉浸在生成快感中失去批判自觉的使用者,而是清楚了解自身声音主权、数据权利与艺术角色的“清醒的创作者”。

 

【下篇预告】

批判了Suno的商业模式,我们不禁要问:AI音乐还有别的可能性吗?当然有。在下一篇文章中,我们将深入Holly Herndon“声音赛博格”实践,探讨艺术家如何以技术为武器,主动建构自己的声音主权,并借助去中心化治理工具实现对创作价值的公平分配。敬请期待本系列之五:《声音“赛博格”:她把自己的声音做成“公用乐器”,还用DAO来分钱》。

 

主要参考文献与延伸阅读

1.Terranova, T. (2000). Free Labor: Producing Culture for the Digital Economy. Social Text, 18(2), 33–58.

2.Fuchs, C. (2014). Digital Labour and Karl Marx. Routledge.

3.Couldry, N., & Mejias, U. A. (2019). The Costs of Connection. Stanford University Press.

4.RIAA v. Suno, Inc., Case No. 1:24-cv-11611 (D. Mass., filed June 24, 2024).

5.中华人民共和国个人信息保护法(2021年)第28条:敏感个人信息的处理规则。

《生成式人工智能服务管理暂行办法》(2023年,国家互联网信息办公室等)。

6.EU AI Act (Regulation (EU) 2024/1689), Article 53: Obligations for providers of general-purpose AI models.

7.Holly Herndon & Mat Dryhurst. Holly+ Project Documentation. hollyplusdao.com(持续更新)。

 

福利分享:声音的主权

https://www.bilibili.com/video/BV1TGVs6EE74/?vd_source=b4bcec617b2a86b4dcf5c6dfb72c80d3



https://blog.sciencenet.cn/blog-312-1536883.html

上一篇:从抖音“石川小町现象”再论: AI歌声能打动人,却未必拥有情感
收藏 IP: 120.227.43.*| 热度|

1 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-30 03:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部