博文

AI模型在输入由AI生成的数据后迅速产生无意义内容精选

已有 7160 次阅读 2024-7-25 07:35 |系统分类:海外观察

研究人员将连续版本的大型语言模型信息输入给前一代AI产生的信息，并观察到了快速的崩溃。

研究发现，用AI生成的文本训练人工智能（AI）模型会迅速导致模型产生无意义的内容。这种同类相食的现象，被称为模型崩溃，可能会阻碍大型语言模型（LLMs）的改进，因为它们耗尽了人类衍生的训练数据，并且随着越来越多的AI生成文本充斥互联网。

“这个信息是我们必须非常小心地对待最终进入我们训练数据的内容，”剑桥大学（英国）的AI研究员、共同作者Zakhar Shumaylov说。否则，“事情总会，可证明地，出错。”他说。该团队使用数学分析表明，模型崩溃的问题可能是普遍存在的，影响到所有使用未经筛选数据的大小语言模型，以及简单的图像生成器和其他类型的AI。

研究人员首先使用一个LLM创建类似维基百科的条目，然后在其前代产生的文本上训练模型的新迭代版本。随着AI生成的信息——被称为合成数据——污染了训练集，模型的输出变成了胡言乱语。模型的第九次迭代完成了一篇关于英格兰教堂塔楼的维基式文章，并以一篇关于杰克兔尾巴多种颜色的论文作为结尾（见‘AI胡言乱语’）。

更微妙的是，这项于7月24日发表在《自然》1杂志上的研究显示，即使在完全崩溃之前，从AI衍生的文本中学习也会导致模型忘记数据集中提到最少频率的信息，因为它们的输出变得更加同质化。

这是在构建代表所有群体公平的AI模型时的一个担忧，因为低概率事件通常与边缘化群体有关，研究的共同作者Ilia Shumailov说，他在牛津大学（英国）工作期间参与了这个项目。

“这是一篇精彩的论文，”纽约市纽约大学的计算机科学家Julia Kempe说。直到现在，许多技术公司通过向他们的模型输入越来越多量的数据来改进它们。但随着人类生产的内容耗尽，他们希望使用合成数据继续改进。这项研究——其版本首次于2023年5月出现在arXiv预印本服务器上——已经激励AI社区试图找到问题的解决方案，她说。“这是一个行动号召。”

你就是你吃的东西

语言模型通过在大量文本中建立标记之间的关联来工作——这些标记是单词或单词部分，通常是从互联网上抓取的。它们通过根据这些学到的模式吐出统计上最可能的下一个词来生成文本。

AI胡言乱语

研究作者在维基百科文章上训练了他们的大型语言模型，并在前一版本产生的文本上训练了模型的连续几代。在被提示从维基百科关于萨默塞特一级列名建筑条目的一段文字继续下去时，模型输出了以下文本。模型的第一个输出（第0代）包含一些错误，但第九代完全吐出了胡言乱语。

第0代模型复兴建筑如伦敦的圣约翰大教堂。最早的垂直式复兴建筑幸存例子可以在18世纪@-@世纪的根西岛圣母教堂找到，该教堂建于19世纪末。有两种类型的垂直教堂：那些...

模型生成9

建筑。除了是世界上最大的黑尾杰克兔、白尾杰克兔、蓝尾杰克兔、红尾杰克兔、黄尾杰克兔种群之一外，还有...

为了证明模型崩溃，研究人员采用了预训练的大型语言模型，并通过基于维基百科条目的数据集对其进行微调。然后，他们让得到的模型生成自己的维基百科风格文章。为了训练模型的下一代，他们从同一个预训练的大型语言模型开始，但是使用其前代创建的文章进行微调。通过给出一个开头段落并要求预测接下来的句子来评估每个模型的表现，然后将输出与在真实数据上训练的模型进行比较。Shumaylov表示，团队预计会出现错误，但惊讶地看到“事情很快出错”。

崩溃发生是因为每个模型必然只从它所训练的数据中采样。这意味着原始数据中不常见的词汇不太可能被复制，而常见词汇被重复的概率增加。最终完全崩溃发生是因为每个模型不是从现实中学习，而是从前一个模型对现实的预测中学习，每次迭代中的错误都会放大。“随着时间的推移，这些错误最终会叠加在一起，到了模型基本上只学会错误而没有学到其他任何东西的地步，”Shumailov说。

这个问题类似于物种中的近亲繁殖，加州大学伯克利分校的计算机科学家Hany Farid说。“如果一个物种与其后代近亲繁殖且不多样化其基因库，可能会导致物种崩溃，”Farid说，他的工作在图像模型中展示了相同的效应，产生了对现实2的诡异扭曲。

合成数据问题

模型崩溃并不意味着大型语言模型将停止工作，但制作它们的代价会增加，Shumailov说。

随着合成数据在网络中的累积，模型应该随着训练数据量的增加而变得更好这一规律可能会破裂——因为训练数据将失去人类产生内容的丰富性和多样性，Kempe说。

用于训练的合成数据量很重要。当Shumailov和他的团队在10%的真实数据以及合成数据上对每个模型进行微调时，崩溃发生得更慢。斯坦福大学的AI研究员Matthias Gerstgrasser表示，模型崩溃尚未在“野外”观察到。Gerstgrasser团队的一项研究发现，当合成数据没有取代真实数据，而是与之并存时，灾难性模型崩溃不大可能3。当模型在由不同AI产生的数据上训练时，而不是它自己的数据时，会发生什么还不清楚。

开发人员可能需要找到方法，例如水印技术，以将AI生成的数据与真实数据分开，这将需要大型科技公司前所未有的协调，Shumailov说。社会可能需要找到激励人类创造者继续产生内容的激励机制。过滤也可能变得重要——例如，人类可以在AI生成的文本回到数据池之前对其进行策划，Kempe说。“我们的工作表明，如果你能适当修剪，这种现象可以部分或可能完全避免。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1443633.html

上一篇：人等宿主如何控制体内微生物组的机制
下一篇：重新审视氢气缺乏：一个潜在干预目标？

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 117.143.183.*| 热度|

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

孙学军

扫一扫，分享此博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

AI模型在输入由AI生成的数据后迅速产生无意义内容精选

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

AI模型在输入由AI生成的数据后迅速产生无意义内容 精选

当前推荐数：1 推荐人： 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

AI模型在输入由AI生成的数据后迅速产生无意义内容精选

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)