博文

[转载]文化传承与人工智能：机构如何重获对其数据的掌控权

已有 3896 次阅读 2026-3-11 14:55 |系统分类:海外观察|文章来源:转载

作者：E.M. Lewis-Jong

守护人类文化记忆的机构——美术馆、图书馆、档案馆和博物馆（统称为GLAM），正面临如何看待当前人工智能发展时代的悖论。多年来对其馆藏的精心数字化工作，已将实体藏品转变为庞大、可机读的人类知识库。然而，恰恰是这种本可使其藏品成为公众所有物的开放性，现在却使其暴露在人工智能产业对训练数据的无休止需求之下，面临被攫取、商业化和滥用的风险。这引发了一个根本性的数据治理问题：GLAM机构如何在忠实于与公众分享世界知识的使命的同时，维持对其有责任审慎管理的可持续数据主权？

掠夺性数据采集的治理危机

GLAM-E实验室联合主任Michael Weinberg在2025年发布的一份题为《人工智能机器人是否正在将文化遗产挤下线？》的报告，记录了一个不安的趋势：人工智能公司部署的自动化机器人正以攻击性集群的方式系统地爬取GLAM机构的藏品，导致服务器基础设施不堪重负，有时甚至使藏品完全离线。

报告显示：“在43位受访者中，有39位经历了最近的流量激增。这39位中有27位将流量激增归因于人工智能训练数据机器人，另有7位认为机器人可能导致了流量增加。”受访者描述服务器在几分钟内CPU负载达到100%并因此瘫痪，直到机器人转向下一个目标；还有人报告遭受来自AI爬虫的持续性拒绝服务级别攻击。维基媒体基金会报告称，其最昂贵的流量中有65%来自机器人，这给一个依赖公众支持才能维持运营的机构带来了系统性成本。

这一现象在两个不同层面运作：

在伦理层面，它提出了在商业人工智能发展时代“开放”获取意义的基本问题，因为机构很少（无论是默许还是其他方式）同意其藏品在未经署名、互惠或机构间对话的情况下，被以盈利为目的的人工智能实验室掠夺性开采。目前可用的治理机制实际上是不充分的：robots.txt指令经常被无视，IP封锁也很容易被在数百个地址间同时轮换的机器人绕过。
在技术层面，它给许多在长期预算限制下运营的机构带来了不断增加的基础设施成本，给全球文化和遗产领域普遍存在的资金削减雪上加霜。因此，机构可能发现自己在掠夺性数据采集面前无能为力，或者被迫为了创造新收入而签订不利的数据许可协议。由于管辖范围内管理人工智能训练数据的法律框架仍然极不明确，希望通过现有数据集寻求新创收途径的GLAM实体可能会发现买家难寻，或者担心被锁定在排他性协议中，从而无法与其他机构共享其数据。

Mozilla Data Collective：一种新的数据管理范式

正是在此背景下，Mozilla数据集体（Mozilla Data Collective, MDC）作为一项具有结构性意义的干预措施出现在GLAM领域。MDC建立在Mozilla的两个基础性项目——Common Voice和数据未来实验室（Data Futures Lab）之上，于2025年11月在巴塞罗那举行的第15届Mozilla Festival上正式启动，获得了数百万美元的种子资金支持，并作为Mozilla基金会孵化的首家社会企业运营。

MDC为数据集提供强大、安全且受控的访问，并通过将它们与其他高价值数据集一同展示来扩大其可见性。其架构设计围绕一个原则展开，该原则与当前商业AI参与者所利用的掠夺性模式形成直接对比：贡献者保留对其数据集的完整所有权，并保留对访问条款的完全控制权。 机构可以选择在现有许可证（如知识共享许可协议或NOODL）下开放共享，或根据其特定的治理需求构建自定义许可框架。他们可以向所有人开放数据，或将访问权限限制在特定类别的下载者，如学术研究人员、非商业用户或价值观一致的组织。数据集仍由其合法所有者拥有，MDC是一个让创作者拥有完全控制权的自助服务平台。如果用户希望收取数据使用许可费，MDC不从中抽成，他们只向下载者收取5%的适度费用，以支付存储和流出成本。其原则是反掠夺性的——组织应继续拥有其数据，并成为按其自身条款分享数据的主要受益者。

对于GLAM机构而言，其影响是变革性的。MDC使机构能够成为人工智能数据经济中积极、有意的参与者，并且其设计能够适应GLAM领域的组织和数据多样性。MDC倡导将多元文化和多语言数据作为构建更公平人工智能的基础，策划的数据集涵盖了从印尼播客音频到鞑靼民俗，从北乌干达的公共广播到亚美尼亚难民和移民证言的语言语料库。

机构完全控制其数据集的使用方式。例如，许多人选择“知识共享署名-非商业性 4.0 国际许可协议”（CC-BY-NC-4.0），但会根据其特定价值观进行调整。有些人选择禁止将其数据用于旨在监视、分析或压制个人或社区的系统，而另一些人则禁止年收入超过一百万美元的公司访问其数据集。访问数据集的人员需经过身份验证，并受具有法律约束力的合同约束，以确保数据按照所属机构的意图使用。

从数字燃料到文化基础设施

GLAM领域正处在一个关键点。将实体藏品转化为数字知识的数十年投资，现在正被人工智能行业的某些参与者利用（通常未经许可、补偿或承认）。该领域对开放性的传统承诺——这曾是其对公众知识的最大贡献之一——现在却被那些将文化遗产仅仅视为训练数据供应链中另一输入来源的行为者所利用。

GLAM机构回应不应是简单的限制利用。文化遗产属于公众，GLAM领域的使命是提供对它的访问。挑战在于建立足够复杂的治理框架，既能尊重这一使命，又能主张必要的机构能动性，以确保如此宝贵的数据集被实体以符合数据提供者价值观和使命的方式使用。

Mozilla Data Collective提供了这样一种模式或平台，机构可以在具有法律约束力的框架下，按照自己的条款分享、许可其数据并获得补偿，从而将文化机构和商业人工智能之间的当前不对称关系转变为真正的交换。它使GLAM机构能够按照他们认为合适的方式创建、策划和控制其数据集，从而成为人工智能数据生态系统中积极、有价值且拥有主权的参与者。它允许GLAM机构以忠实于其使命和宗旨的方式管理其数据。

在一个人类的文明记录正被用于构建未来智能系统的时代，让美术馆、图书馆、档案馆和博物馆在此事上拥有强有力的发言权至关重要。

source：https://community.mozilladatacollective.com/cultural-heritage-and-ai-how-institutions-can-reclaim-control-of-their-data/

转载本文请联系原作者获取授权，同时请注明本文来自孔祥盛科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3528294-1525347.html

上一篇：[转载]档案管理员人工智能准备度指南
下一篇：[转载]国际档案理事会公布2026年国际档案周主题

欢迎参加科学网十佳博文评选活动！

主办单位：