博文

学术论文大型语言模型精选

已有 4448 次阅读 2024-8-15 07:07 |系统分类:海外观察

学术论文大型语言模型

这种疯狂吞噬信息的趋势难以逆转，学术论文训练后，这种系统将会更容易撰写或编写学术论文，写论文将成为机器的专属，人类学者的论文撰写能力逐渐被边缘化。未来写论文这事，会如何发展？

学术出版商正在向科技公司出售研究论文的访问权，用于训练人工智能（AI）模型。一些研究人员对此类交易在未经作者咨询的情况下发生表示失望。这一趋势引发了关于使用已发表且有时受版权保护的作品来训练日益增多的AI聊天机器人的问题。

专家们说，如果一篇研究论文还没有被用来训练大型语言模型（LLM），那么它很可能很快就会被用上。研究人员正在探索技术方法，以便作者能够发现他们的内容是否被使用。

上个月，英国学术出版商泰勒与弗朗西斯（Taylor & Francis）签署了一项价值1000万美元的协议，允许这家美国科技公司访问其数据以改进其AI系统。而在6月，一份投资者更新报告显示，美国出版商Wiley通过允许一个未具名的公司在其内容上训练生成式AI模型，赚取了2300万美元。

华盛顿大学西雅图分校的AI研究员露西·卢·王（Lucy Lu Wang）说，任何可以在线阅读的内容——无论是在开放获取库中还是不在——都“很可能”已经被输入到LLM中了。“如果一篇论文已经作为模型的训练数据被使用，那么在该模型被训练后就无法移除那篇论文，”她补充道。

庞大的数据集

LLM在巨量的数据上进行训练，这些数据经常是从互联网上抓取的。它们从训练数据中通常数十亿的语言片段（称为标记）之间推导出模式，使它们能够以惊人的流畅度生成文本。

生成式AI模型依赖于从这些大量数据中吸收模式来输出文本、图像或计算机代码。由于学术论文的长度和“高信息密度”，对于LLM构建者来说非常有价值，加利福尼亚州旧金山的全球非营利组织Mozilla基金会的AI训练数据集分析师斯特凡·巴克（Stefan Baack）说，该组织旨在保持互联网对所有人开放。

王说，用大量的科学信息训练模型还可以大大增强它们对科学话题进行推理的能力。她共同创建了基于8110万篇学术论文的数据集S2ORC。这个数据集最初是为文本挖掘开发的——应用分析技术在数据中发现模式——但后来被用来训练LLM。

购买高质量数据集的趋势正在增长。今年，《金融时报》将其内容提供给了ChatGPT开发者OpenAI，这是一个利润丰厚的交易，在线论坛Reddit也将其内容提供给了谷歌。鉴于科学出版商可能将替代方案视为其作品在没有协议的情况下被抓取，“我认为会有更多此类交易出现，”王说。

信息秘密

一些AI开发者，如大规模人工智能网络，故意保持他们的数据集开放，但许多开发生成式AI模型的公司却对他们的大部分训练数据保密，巴克说。“我们不知道里面有什么，”他说。开源存储库如arXiv和学术数据库PubMed被认为是“非常受欢迎”的来源，尽管付费期刊文章可能有其免费阅读的摘要被大型科技公司抓取。“他们总是在寻找这类东西，”他补充道。

伦敦帝国学院的计算机科学家伊夫斯-亚历山大·德蒙乔耶（Yves-Alexandre de Montjoye）表示，证明一个LLM使用过任何一篇特定论文是困难的。一种方法是用文本中的一个不寻常的句子来提示模型，看输出是否与原文中的下一个字匹配。如果匹配，那就是该论文在训练集中的好证据。但如果不匹配，那并不意味着论文没有被使用——至少因为开发者可以对LLM进行编码，以过滤响应，确保它们不会与训练数据过于接近。“这需要做很多工作，”他说。

检查数据是否在训练集中的另一种方法被称为成员推断攻击。这依赖于一个观点，即当模型看到它以前见过的东西时，它会对其输出更加自信。德蒙乔耶的团队为LLM开发了一个版本，称为版权陷阱。

为了设置这个陷阱，团队生成了看起来合理但实际上无意义的句子，并将它们隐藏在作品中，例如作为白色背景上的白字或在一个网页上显示为零宽度的字段中。如果LLM对未使用的控制句子比隐藏在文本中的句子更“惊讶”——一种称为其困惑度的度量——“那就是统计证据表明陷阱之前被看到过”，他说。

版权问题

即使有可能证明LLM已经在某个文本上进行了训练，接下来会发生什么也不清楚。出版商坚持认为，如果开发者在训练中使用了受版权保护的文本而没有寻求许可，那就算作侵权。但有一种相反的法律论点称，LLM并没有复制任何东西——它们从训练数据中提取信息内容，这些内容被分解，并使用它们的学习来生成新文本。

诉讼可能有助于解决这一问题。在一个可能成为判例的持续进行的美国版权案件中，《纽约时报》正在起诉微软和ChatGPT的开发者OpenAI，地点在加利福尼亚州旧金山。这家报纸指控这些公司未经允许使用其新闻内容来训练他们的模型。

许多学者乐于让他们的作品包含在LLM训练数据中——尤其是如果这些模型能使他们更准确的话。“我个人不介意如果我有一个以我的风格写作的聊天机器人，”巴克说。但他承认，他的工作并不像其他职业那样受到LLM输出的威胁，如艺术家和作家。

如果论文的出版商决定出售对他们的版权作品的访问权，个别科学作者目前几乎没有权力。对于公开可获得的文章，还没有确立的方法来分配信用或知道一个文本是否已被使用。

包括德蒙乔耶在内的一些研究人员感到沮丧。“我们想要LLM，但我们仍然想要公平的东西，我认为我们还没有发明出这是什么样子，”他说。

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://blog.sciencenet.cn/blog-41174-1446563.html

上一篇：FDA“公认的安全”可能存在隐患
下一篇：人体耐受高温环境的极限

收藏 IP: 117.143.183.*| 热度|

当前推荐数：3 推荐人：郑永军 王启云 guest38022935

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

孙学军

扫一扫，分享此博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

学术论文大型语言模型精选

当前推荐数：3 推荐人：郑永军 王启云 guest38022935

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

学术论文大型语言模型 精选

当前推荐数：3 推荐人： 郑永军 王启云 guest38022935

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

学术论文大型语言模型精选

当前推荐数：3 推荐人：郑永军王启云 guest38022935

该博文允许注册用户评论请点击登录评论 (0 个评论)