数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

人工智能和学术出版:三位专家的观点

已有 2533 次阅读 2023-2-15 14:30 |个人分类:STM出版|系统分类:海外观察

引用本文请注明出处

作者:Anita de Waard             译者:康楚熠         校译:李静涵

来源:https://scholarlykitchen.sspnet.org/2023/01/18/guest-post-ai-and-scholarly-publishing-a-view-from-three-experts/

 

有许多关于以人工智能AI)之名开发的技术如何或是否能够支持(或毁掉)学术出版的会议、研讨会和主题演讲。但是,根据从业者的说法,人工智能的实际含义是什么?准确地说,这套神秘的技术如何帮助或损害学术出版,目前的一些趋势是什么?人工智能的风险是什么,我们应该注意什么?

SSPSociety for Scholarly Publishing,学术出版协会)关于人工智能和出版专家咨询网络研讨会上,我(AdW)向我们的三位受邀专家提出了一些问题,它们分别是:

·  Helen KingHK),SAGE出版社的转型负责人,主持有影响力的博客PubTech Radar

·  Lucy Lu WangLLW),华盛顿大学信息学院助理教授,艾伦人工智能研究所访问研究员。她帮助建立了具有影响力和创新性的语义学者(Semantic Scholar平台,并帮助召开了一系列关于学术文本自然语言处理的研讨会,包括SDPScholarly Document Processing,学术文献处理)和 SciNLPNatural Language Processing for Scientific Text,科学文本自然语言处理)研讨会

·  Paul GrothPG),阿姆斯特丹大学算法数据科学教授, UvA(弗吉尼亚大学)数据科学中心科学主任。他曾在爱思唯尔担任颠覆性技术总监,也是 Force11(一个由研究人员、图书馆员、出版商和研究资助者组成的国际联盟,致力于改革或加强研究出版和传播系统)的前董事会成员

以下是该对话的精简版,为清晰起见进行了编辑。

 

首先,问一个简单的问题:你们每个人如何定义“AI”

HK:对我来说,人工智能是一系列基于算法的技术总称,这些技术可以解决以前需要人类思考的复杂任务。我谈论的是有助于决策的软件解决方案

PG:正如Larry Tessler所说:人工智能是尚未完成的事情。教科书上的定义是:人工智能是关于智能代理的构建和设计。智能这个词有两部分含义:一方面是学习;另一方面是解决问题。在出版中,这意味着机器能够通过学习模式来做事。

LLW:我将人工智能定义为一组技术,可以执行通常由人类完成的任务,且这些任务需要更高层次的智能或知识才能完成。最近,人工智能大多是指直接从数据中学习的模型,而不是以结构化的方式明确编码人类知识。


很好的定义,尤其是对以前通常由人类完成的任务的关注。谈到人们所做的事情,各位知道哪些人工智能技术目前被用于(学术)出版吗?

HK:很难想象有哪个领域的人工智能没有触及到出版工作的流程!如果我回顾一下完整的科学出版流程,有人工智能工具来支持文章写作(如PaperPalWritefull)、文章提交(如WileyRex,它会自动从你的论文中提取数据);有在提交时筛选稿件的工具,如PenelopeRipetaReview;以及支持同行评审的工具,如用于方法检查的SciScore和用于科学图像检查的ProofigandImageTwin,尽管统计检查还没有那么发达。有许多基于人工智能的工具和服务可支持寻找审稿人。Scite.ai正在围绕引文分析开展有趣的工作,以显示引文如何支持论文中的论点。在出版物制作阶段,有很多工具来创建校样,特别是在图书出版中,许多出版商正在使用自动分类或审稿服务。在出版后,有搜索引擎和推荐工具使用人工智能对内容进行分类,并通过你的已阅览信息来建议我接下来应该看什么,从而实现论文的推送。

PG:这是一份很棒的清单!除此之外,我看到两个主要领域:第一,如ScholarcyAI智能高效阅读工具,我认为在这方面我们会看到出版业更多的发展。第二个领域是将已发表的材料作为数据,特别是在自然语言处理(Natural Language ProcessingNLP)领域。这可以带来更好的语义检索,它可以作为出版商向不同公司提供论文的管道。我看到有人开始研究引文驱动的推荐系统,它利用信息提取,可以让你扩展到其他领域。

LLW:在出版和消费过程中有很多步骤:搜索、推荐、访问、阅读、写作。一个人不能专注于所有事情,但我最感兴趣的是用于协助阅读以及在学术文献的背景下解释文件的人工智能。我看到了大量的多文档和跨文档工具,它们可以在一部文献和其他文献之间建立联系。在阅读方面,我们有很多事情可以做。例如,人工智能可以支持极端的总结:在Semantic Scholar 上,我们有一个TLDRToo Long, Didn’t Read!太长了,没读过!)功能,它提供论文的一到两句话的总结,这可以帮助你决定是否应该阅读某篇论文。一旦你决定打开一篇论文,你就会看到5-50页非常密集的文字,而书籍就更密集了。我们怎样才能帮助人们在这些论文中找到正确的位置?我们感兴趣的另一项技术是问题回答系统,它允许界面在论文中主动搜索以找到正确的部分。


这些工具中似乎有不少属于推荐系统的一般范畴。说到这一点,有没有专门寻找文档之间相似性的新工具?

LLW:相似性可以意味着很多不同的事情。一个有趣的发展方向是,构建出能够用其他文献的证据来验证某篇文章主张的系统。还有一些初步的模型,可以进行类似于文献综述的搜索,我认为这种应用的模型可以帮助学者们更快地完成工作。我特别感兴趣的一个领域是临床研究,目前正在研究如何加快产出临床领域系统综述的方法。

HK:在寻找被改述的文档方面,Crossref正在与TurnItIn(美国一家基于互联网提供内容抄袭检测服务的商业公司)合作,STM正在开发工具,寻找提交稿件之间的相似性。

PG:人工智能可以告诉你文件之间的相似性。这里有两个例子:第一,在最近的一次人工智能会议上,对论文进行自动聚类的工具;第二,当你的查询结果为零时,怎么办?通过一些新的工具,你可以找到与你要找的东西相似的论文,即使你的查询没有直接结果。算法非常善于表征学习,这一点很有帮助。

LLW: 审稿人推荐是人工智能技术可以大展身手的一个领域!我不相信整个审稿过程会自动化,但这是一个有趣的领域。

 

Lucy,你明确表示同行评审不应该自动化。大家对这个话题有什么看法:同行评议是否应该以及能否由人工智能完成或支持吗?

LLW:审稿过程中有两个瓶颈:一个是找到合适的审稿人,另一个是让他们写出高质量的评论。对于第一个问题,有很多工作要在审稿人库中做自动分配。大多数情况下,这样做效果还可以,但如果你发出大量的邀请,而没有与审稿人建立人际关系,人们往往会拒绝或不太愿意回应,写出的评论也不那么好。如果我们能将寻找合适审稿人的人工智能方面与解释你为什么应该进行审稿的人情方面结合起来,那就太好了。关于写评论本身:有些部分可以自动化,例如寻找参考文献,而提出建议以改进作品本身则更需要人的参与。

PG:我认为这取决于我们想要什么样的评审系统。这些工具并不能真正帮助检测出作者是否发表了新颖的东西——但就思考科学研究是否做得正确而言,也许我们可以对智能系统有更深的参与。工具可以帮助回答关于研究是否正确完成的问题:你是否遵循了STARStructured, Transparent, Accessible, Reporting,结构化的、透明的、无障碍的、报告的)方法?我们为作者准备了很多检查清单:如果我们利用自动化系统直接进行方法论严谨性的检验,这种严谨性可能会高得多!这并不能取代人在审查论文时所做的工作,这更多的是关于品味,关于为什么完成这项工作。系统可以帮助评估科学是否正确完成。

HK:如果你说的是筛选论文,那么像PenelopeSciScoreRipeta这样的工具可以帮助检查清单。它们可以确保数字和表格都在正确的位置。使用人工智能检查图像(例如检测欺诈)是非常重要的,而且人们正在这方面进行努力。我认为这更多是出版商的责任,而不是审稿人的责任。在出版商方面,我认为做基本的身份检查也很重要:作者或审稿人是他们所说的那样吗?论文有时不是来自真实的人[即假作者],这需要检查。假如作者来自截然不同的部门,这可能是欺诈的迹象,那么这种合作是否有可能?

PGHelen,我有个问题要问你。为一篇论文找审稿人太难了,而且审稿人要做的事情也太多了!你认为我们可以在多大程度上减轻负担?

HK:寻找审稿人的系统正在建设中。也许我们需要转向撰写半自动化的论文,即只由一个人审阅论文的一个小节。或者,如果你能用机器来自动化编写方法部分,那么我们应该支持这种做法。

AdW:我觉得有趣的是,我们正在看到人类和人工智能工作的融合。Lucy说,我们仍然需要人的参与,但HelenPaul都指出,科学中有些元素主要是由机器完成的,这些元素既可以由机器编写,也可以由机器检查。如果我们考虑一个极端的场景,在一个完全自动化的实验室里,如果机器本身可以写报告呢?谁会读它们,其他机器吗?

 

这是一个更大的问题:目前,我们看到了计算生成论文的崛起。我们如何才能确保我们(人类)在这方面保持领先?

LLW: 我们应该问的一个问题是:论文的目的是什么,是给人类阅读的吗?如果有一种方法可以突出论文的具体贡献,你也许可以减轻阅读的负担。还是我们在制造更多供计算机阅读的论文?例如,如果你正在进行一项实验,机器可以生成一份复制所有设置的报告,以便另一台机器可以重做,这将提高可重复性。我认为两者都有存在空间:人工智能可以摄取大量数据,所以也许有供机器阅读的部分,也有供人类阅读的论文。我们(人类)可以专注于解释和交流!

HK:这在社会科学领域是不同的。我确实看到实验科学中机器生成的科学工作发展, 但我在人文学科中没有真正看到这种情况。

PG:关于抄袭的话题,我想向人们提及内容真实性倡议(The Content Authenticity InitiativeCAI):这是Adobe和其他公司在如何识别图像是否真实方面所做的努力。他们的目标是跟踪和报告图片的转换和来源,这对出版商来说应该很有趣。

 

对人工智能导致的偏见有什么想法,我们应该进一步探索哪些方面?

LLW:有一些问题,例如,所谓的富者愈富马太效应:人们很难不对自己比较亲近的人、机构和工作表现出偏见。我们如何才能使这个过程更加公平?创建工具,让来自世界各地的拥有不同资源的学者有更广泛的机会,有助于公平竞争。让每个人都有机会使用这些工具,比如阅读或写作助手,在某些情况下会有帮助。在不同的国家也有不同的规范,比如借鉴其他作品,你可以帮助人们在写论文时发现这一点,并支持他们的写作或引用习惯,使其更符合科学规范。这可能是一个潜在的干预措施,使人工智能对更广泛的科学界更有帮助。

HK:了解我们在做什么很重要。例如,如果我们正在编写一个预测论文影响的算法,这是真的吗?还是它只是预测来自著名机构的白人男性会有更大的影响,因为从历史上看,他们总是这样?COPECommittee on Publication Ethics,出版道德委员会)在这方面有一些非常好的指导方针。没有魔法棒可以确保这些事情不会发生;重要的是要不断让利益相关者参与进来。

PG:我同意,正念是关键。这些是系统,不仅仅是单一的模型,还有人类在输入数据,对数据、供应链和可视化做出决策。思考这个问题的方法是,首先,作为一个出版商,为我们定义:我们的价值观是什么?对于我们正在构建的系统,我们如何体现这些价值观?也许这意味着我们不做一些事情,或者我们在顶部放置过滤器,并不断检查我们实际上在做什么。这些是社会技术系统,而不仅仅是简单的算法。再次强调,人情味是关键!

 

人工智能系统的主要风险是什么,我们如何确保人类持续存在于系统的循环中?

PG:对于出版商来说,我认为你真的需要意识到自动决策过程中的法律风险。你需要和你的律师讨论:让人工智能参与一些核心出版流程会有什么影响?你可以改善性能不佳算法的一些潜在风险,但法律风险是非常复杂的。你需要先理清这个问题!

LLW: 我对尝试从数据中删除人口统计特征等内容的想法发表了评论。这似乎是一个促进公平的好主意,但在很多地方,身份是很重要的!去掉某人的名字或隶属关系并不足以真正实现匿名化,这样做也不一定更好:在某些情况下,这会对工作造成一些不公正。有时,像性别和种族这样的因素会影响我们的写作方式,以及作品应该如何被解读!因此,我们应该把这些因素考虑在内。如果我们回到我们最初的评审目标:目标是以单一的标准来评判每篇论文,还是根据每篇论文的优点来评价?这些都是复杂的问题,但出版商应该考虑这些问题。现在,出版不是一个非常可持续的过程,我们需要思考如何使它对社区更有价值。

HK:我同意Lucy的观点:你可能想保留一些人口数据作为手稿的一部分,因为你想积极改变不同群体的代表比例。我们需要和房间里的不同群体一起思考这个问题:不是每个人对这些问题的感受都一样。

 

各位已经就人工智能可以为出版业做什么提供了很多想法,所以最后我想问大家:出版业可以为人工智能社区提供什么?

PG:第一件事是与人工智能研究人员接触!这是一个非常前沿的领域,与人工智能的研究人员合作对出版商来说是好主意。

HK:给人工智能提供大量漂亮、干净、处理良好的数据集!

LLW:我同意。数据将变得越来越重要。目前,很难说(从出版商那里)有哪些数据可供二次使用。例如,元数据、图片、引文是否可用?如果你能在文件中嵌入使用条款,我们就不必那么辛苦地去确定是否可以重复使用出版物中的数据。

 




https://blog.sciencenet.cn/blog-521339-1376368.html

上一篇:出版的快与慢:回顾近十年的出版速度
下一篇:在数字化转型时代实现可信、透明、高效的投稿与审稿
收藏 IP: 58.48.26.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-20 11:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部