数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

机器写作:机器生成的图书会改变我们的学术阅读消费生态吗?

已有 680 次阅读 2019-8-17 23:48 |个人分类:科学交流|系统分类:海外观察

引用本文请注明出处

作者:Lettie Y.Conrad;译者:周伊;校译:宁莎莎

来源:https://scholarlykitchen.sspnet.org/2019/04/26/revisiting-navigating-the-big-deal-a-guide-for-societies/

上个月,施普林格·自然(Springer Nature)宣布出版第一本由机器生成的书——用算法管理学术资源的有效性终于得到了实验。在“机器人记者”和小说自动生成的时代,施普林格打算带头认真研究机器学习的价值,帮助各层次读者理解大量的学术文献。这本出版物综合了施普林格出版的其他150本关于锂离子电池主题出版物的内容,其目的是试验这种机器学习技术的能力,帮助我们快速掌握一个新主题,节省阅读几十种资源的时间。

这则消息让我不禁想问:学生们能从这些集成的资源中充分地学习复杂的概念吗?外行读者能充分理解新概念所适用的相关背景吗?我们如何避免将人类的偏见、权力结构以及猜想带入到科学研究和支撑它的信息技术中去?

最近,我有机会接触到使这本机器出版物成为现实的两位主要人士:施普林格的产品数据和元数据管理主管Henning Schoenenberger,以及德国法兰克福歌德大学应用计算语言学实验室的Christian Chiarcos教授。

这个项目的目标或灵感来自于什么?

Henning Schoenenberger:施普林格·自然旨在塑造图书出版和阅读的未来。自然语言处理的进展很快,人工智能新技术为自动生成科学内容提供了很大的前景。因此,我们决定开发并出版第一本由机器生成的研究著作。这本书的潜在受众包括科研人员、硕士和博士研究生、评审人员、学术作家和科学教育决策者等。通过对大量论文进行结构化摘录,机器能够对某一特定学科领域或主题进行概述,从而节省研究人员的时间和精力。通过这次实验,我们还想发起一场关于学术出版中机器生成内容的机会、含义和潜在风险的公开辩论。技术越复杂,风险也越大。我们对深度学习的研究越深入,也就越需要由学科专家严密审查,以确保内容的准确性。

那么,您认为这本机器生成的书将解决什么问题呢?

Henning Schoenenberger:这本书提出了一个潜在的解决方案来有效地管理信息过载问题。它允许读者在短时间内获得某个特定研究领域的概述,而不是阅读数百篇已发表的文章。同时,如果需要,读者总是能够直接链接至原始源,以便更深入地挖掘和进一步探索。这样一来,读者可以直接获取施普林格自然的内容平台SpringerLink上发布的过审资源,而不用依赖于搜索结果往往很难通过审核的搜索引擎。机器生成的书籍,正如我们的产品,可以帮助任何需要写文献综述,或者需要快速而集中地开始某个主题的人。

这本书在多大程度上解决了上述问题有度量标准吗?您是否在观测学习效果或使用其他方法来衡量研究者更快或更有效理解这些主题的能力?

Henning Schoenenberger:我们正在进行用户研究,以及分析研究群体的反馈来评估项目的成功性。目前,我们的重点尤其在于为算法找到最有用的参数设置,以实现理解吸收效果最优。我们使用的参数包括:页面数量、集群和章节的数量、摘要的长度、关键词的数量等。当然,参数设置因学科而异,而且还取决于给定主题的范围和大小。我们对读者学习成果的期望是务实的:能够加快文献的消化吸收过程。同时,支持读者识别原始出处,并在必要时通过链接展开进一步探索。

那么如何进行同行评审呢?您如何验证最终成果的准确性并保证出版质量?

Henning Schoenenberger:我们很清楚的是,机器生成内容的质量必须和原始基础资源一样好。因此,我们决定在实验中只使用来自内容平台SpringerLink的经过同行评审的可靠研究。通过超链接连接所有源文档,读者可以随时找到原始出处。我们决定不对任何文本进行手工打磨或复制编辑,以突出展示机器生成内容的现状和可能的边界。施普林格·自然的编辑和化学领域的专家会监督迭代内容创建过程,并定期就内容输出提供指导和反馈。

如何避免在算法中内置人类偏见?

Christian Chiarcos:当前的程序由几个组件组成,每个组件都有自己的特性,分别包括内容表的生成、书中章节的总体结构等等。在这种情况下,底层算法是完全无监督的:基于给定的一组参数,如章节数和节数,以及特定的相似性度量,将类似的论文分组并聚集在一起。从每个集群中,根据预定义的参数选择最具代表性的出版物。

在机器生成的图书出版中是否存在可扩展的业务模型?

Henning Schoenenberger:我确实希望机器生成的内容在某种程度上能成为一个可扩展的业务模型。然而,与许多技术创新一样,我们也承认,机器生成的研究文本可能是一种全新的内容,很多特定特征还没有办法完全预见。作为一个全球出版商,我们有责任考虑到机器生成内容的潜在影响,并致力于为机器生成的研究内容提供一个框架。话虽如此,如果声称我们知道这次实验未来会如何发展,那就太自以为是了。

与传统的图书出版成本相比,您是否期望机器生成的图书生产的排版、编辑或其他出版成本显著增加或减少?

Henning Schoenenberger:乍一看,当涉及到机器生产时,应该期望的是降低成本。然而,实际情况更加复杂,事实上我们才刚刚开始探索这个领域。在这种情况下,评审过程和迭代质量检查(必须构建到出版周期中)最终会抵消掉我们通过加快内容生产过程而节省的时间。因此,现在就回答这个问题还为时尚早。作为一个全球出版商,我们一直在寻找优化出版流程的方法,使其更快、更高效,从而为我们的客户带来更大的价值。

到目前为止,这个项目最大的惊喜是什么?这个实验有什么出乎你意料的结果吗?

Christian Chiarcos:当我们开始这个项目时,我们手头有一系列成熟的技术,但是完全不清楚应该如何评估机器生成的书。在机器学习环境中,人们通常有一定数量人工创建的gold data来测试系统是否按预期执行。对于书籍生成,没有类似的东西,我怀疑我们能否找到资源来手动创建,比如说10250页的关于锂离子电池的概述书籍,或者任何我们能用作gold datatraining data的特定主题。虽然我们根据对受众预期的直觉判断来为不同的模块选择技术,但在很大程度上并不清楚该领域的研究人员以及公众如何看待这样一本书。到目前为止,人们的反应实际上比我个人预期的要积极得多。关于锂离子电池的机器生成的书是否值得一读很难判断。很有可能不会,因为它的表述肯定不会比原文更好,也不会比原文更易读——而且很多内容技术性都很强。但吸引人们的是将大量论文结构化以及压缩后能带来的便利性,这项技术被认为是一次成功的尝试。尽管有些担忧科研作者的未来,但是我个人认为在短时间内机器生成的出版物不会对他们造成负面影响,反而能为他们提供支持。另一件让我非常惊讶的事情是在生成过程中学科专家的反馈密度。这表明用户希望与系统有更直接的交互,以便探索不同参数的效果,甚至可能修改系统的章节结构、样式或压缩程度。在这个十分吸引人的领域这可能是一个有前途的方向。

研究人员在学术出版生态系统中起着至关重要的作用。施普林格自然的第一本机器生成图书是想引入一种新的图书格式吗?这是否意味着人类作者可能会变得多余呢?

Henning Schoenenberger:如果这项技术被证明是可靠的,我们计划增加机器生成内容的使用和创造。然而,我们无意忽略人类创造的高价值内容。研究人员和作者撰写的研究论文和书籍将继续在科学出版中发挥重要作用。人工智能还不能生成任何全面且有意义的研究文章。尽管这个领域的最新研究非常吸引人,但由于缺乏对上下文的理解,算法仍然很难记住三页之前所说的内容,也很难创作一个吸引读者的故事情节。我们预计,内容的创作方式将有多种选择——从完全人工创建的内容、人类与机器混合创作的文本到完全由机器生成的文本。

这个项目的下一步是什么?

Henning Schoenenberger:对于第一本书,我们决定专注于当前的化学主题。我们还计划在其他学科领域(包括人文和社会科学)发布实验图书,由于跨学科概述相当困难,因此尤其会强调跨学科实验。目前的实验图书还会根据用户研究和技术进步不断改进,同时以锂离子电池图书为基础,未来将探索该产品的进一步开发。








http://blog.sciencenet.cn/blog-521339-1194065.html

上一篇:斯坦福大学出版社和人文学科的错误教训
下一篇:什么是区块链?你需要关注它吗?——为心怀困惑的学术出版者写作的指南

1 强涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-9-17 05:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部