博文

AI和学术交流

已有 2534 次阅读 2019-5-31 23:43 |个人分类:科学交流|系统分类:海外观察| 学术出版

引用本文请注明出处

作者：ANN MICHAELAPR；译者：刘欣怡；校译：陈铭

来源：https://scholarlykitchen.sspnet.org/2019/04/25/ask-chefs-ai-scholarly-communications/

毫无疑问，人工智能(Artificial Intelligence，AI)需要“消化”数据(最好是大量数据)来获得发展，数据的质量越高，其结果就越好。当AI应用于研究相关的学术交流领域时，它将如何运作？如何训练 AI使其适用于高质量、经过审查的信息？以及如何分配收益和成本？

Judy Luther：学术交流中有很多可公开获取的内容，比如常见的预印本服务器（如arXiv和bioRxiv）、开放获取期刊和图书。此外，还有越来越多的形式，包括数据集和代码、开放的同行评审、媒体以及学术研究环节的其他要素。这些都为所有利益相关者以及公众提供了丰富的资源。

虽然AI最常用于消费领域，但其在研究领域的应用也并不新鲜。Meta就是一个例子，它是一款科学搜索引擎，2017年被Chan Zuckerberg Initiative (CZI)收购。Meta的创始人Sam Molyneux和他的妹妹Amy与一组工程师和科学家合作了六年，开发了一系列人工智能工具，用以分析现有的和新发表的研究成果。他们还与出版商建立合作关系，以获取受版权保护的内容。

生物医学是一个很好的入口，该领域每天都会发表4000篇文章，大量的内容使得规模化操作成为可能，也正因此，该领域的研究需要工具配合。Meta的分析能够检测出研究的模式，这有助于研究人员确定合作者，以及帮助资助者寻找投资机会，它甚至可以预测哪些论文的影响更大。

CZI计划把Meta推广到整个学术界。对于不同的学科，为了适应不同格式和性质的研究成果，可能需要对该工具进行调整。因此，研究是否需要强大的赞助方，合作伙伴，或者即插即用工具？这一切将取决于成本和效益的价值。

Tim Vines：我们需要很多AI工具来帮助科研人员更好地进行研究，比如帮助运行实验室的工具、改进数据共享的工具、提高同行评审效率的工具。很多这样的AI工具都是通过注解研究文献生成的培训数据来获得学习。

不过，与Meta和爱思唯尔内部进行的AI研究的雄心相比，这些都不值一提。这些项目消化了大量的研究文献，旨在实现更广泛地自动化研究，特别是生成假设。

但研究文献是否真正反映了我们对世界的理解？或许这种理解仅存在于研究人员的头脑中，这些信息通过他们与同事的非正式（在家中或会议上）的互动获得了补充。

同行评审倾向于修正草稿中的不当表述，而AI只接受带注释的研究文章的训练，因此它可能仅限于生成普适性的假设；事实上，我们可能无法把实现突破性研究的智能飞跃寄希望于机器。如果是这样的话，Meta和爱思唯尔可能还想从酒会的谈话中收集人工智能训练数据。

David Smith：从理论上看，学术成果有点类似于19世纪末发现金矿的克朗代克河，克朗代克河引发了大规模的淘金热，同理，这可能是风投公司和硅谷对“AI+学术研究”感兴趣的原因。然而，在现实中，基于AI的机器能够出色地阅读和分类工程文本，但它离不开真正高质量、准确、描述良好的数据的支持，这才是挑战的开始。

坦白地讲，就目前的情况来看，研究文献并不是一个很好的“原材料”。它不是为机器而写的，它的要素不容易解耦和利用；而且机器缺乏足够的背景、描述和组织来大规模地收集数据，更何况很多时候数据是错误的……研究本质上是一个学者不断减少不确定性的过程，对于人类来说这是可以实现的，但机器似乎很难做到。

数据集也并没有好到哪里去。同理，为一台机器整理、管理和组装一个好的数据集需要大量的工作。你可以不使用它，但一旦你真正开始尝试使用它后，AI将会受到影响。毕竟好的样品和成品之间还是有很大的差别。

考虑到大多数数据都是错误的，而基于错误数据构建的AI可能是毁灭性的——如果你想了解一些用于训练AI的医学图像数据集的细节，可以看看Luke Oakden-Rayner的法医分析，胸部x光片可能会让你不寒而栗。

但是AI的潜力可能超乎想象，为了实现它的潜能，我们需要做大量的工作:

1. 为了配合研究文献，我们需要对机器输出进行适当的讨论。

2. 研究文章需要有语义上的声明性和思辨性的表述，以帮助机器进行模式匹配和交叉引用。

3. 我们需要讨论如何实施必要的检查和平衡，以便使用真正具有代表性和构造良好的数据集来构建AI。

这将耗资巨大。因此，每当我看到有关学术成果机器可读的各种政策声明时，我都不禁眉头一皱。其实让人们下载一些xml并无伤大碍，重要的是没有人研究如何才能真正实现高质量的原始材料。

Alice Meadows：我越了解 AI的广泛使用，我就越感到恐慌。从理论上讲，这听起来很棒——过去需要几年甚至几十年才能解决的问题，现在几分钟甚至几秒钟就能解决；它推动了节省时间设备的开发，因此我们可以花更多的时间在有趣的事情上；在学术交流界，AI为同行评审、数据分析等功能的加速和改进提供了机会。但我们都知道，AI至少有一个显著的弊端：它不仅容易受到偏见的影响，而且会因此被毁掉。尽管大家可能倾向于认为基于学术性的、经过同行评审内容驱动的AI解决这个问题，但我不太确定。

我们知道自己的内容并非完全没有偏见。例如有色人种的作家和审稿人的数量均受到限制；北半球的学者和科学家对于AI数据库和其他资源更有发言权；而且女性研究发表的可能性仍然低于男性同事。更不用说引用和其他代表质量的指标通常是基于数量的（数量与质量并非完全划等号），而且也同样容易产生偏见。

因此，尽管使用学术内容作为基础的AI可能比使用那些甚至没有经过事实检验或有明显偏见的内容(地理、政治、人口统计或其他方面)要好，但我仍不相信它能解决根本问题。引用Safiya Noble的话说，无论他们使用什么内容，AI所基于的算法仍然意味着“内容可能被扭曲，虚假信息可能泛滥”。

Jasmine Wallace：学术交流是由学术分享和发表研究成果所推动的，其中大部分是对方法和原则的理论分析。如果想象一个由学者、学者和研究人员组成的更加互联的网络，拓宽他们的集体知识的范围，最后落脚点就是AI。学术出版界已经看到了人工智能在编辑和制作方面的进步：自动化报告、内容翻译、预测分析、内容个性化和图像识别，这些只是AI帮助提高学术产出的几种方式。

然而，随着进一步深入研究机器学习和高级预测分析，我们不得不提供强大的元数据来实现AI效益的最大化。为了提高AI更加优质化智能化的输出的能力，我们必须从更高质量的输入入手。现在，机器可以获取我们的元数据并使用自动化分析，这样可以改进我们的工作流。此外，通过良好的计算，算法可以帮助我们解决需要数月或数年才能解决的问题。

出版商对数据更加用心了，我们定义数据的含义以及如何利用这些信息，并且利用这些信息帮助自己和我们的服务对象做出更明智的决策。我们的学术成果变得更有目的性和针对性，并且能够更好地转向数据挖掘的新领域。几十年来，我们一直是世界科学传播的把关人，借助AI技术，我们能够获得数据的数据，并有能力推动学术的进步。利用学术交流的力量，我们可以成为AI发展的核心。如果能训练系统去发现和建立人类大脑所不知的联系，我们发现的可能性将是无穷无尽的。

在一个关于AI在编辑领域应用的小组讨论中，Sundari Ganapathy谈到了推进人工智能的最大障碍是让人们不再害怕它。她解释说，如果能够让人类更多地与机器互动，并训练它们更好地完成工作，那么我们就能开始看到更多改进的系统。最后，她指出，AI的作用应该是增强人类知识，而不是取代人类知识——这通常是人们的反应。话虽如此，除了与技术使用相关的成本外，我认为，为了在人工智能领域看到更多有用的发展，我们需要更大胆地投入。

David Crotty：在上面的回复中，Judy谈到了开源内容的优势，David提到了将这些内容应用于AI训练所涉及的巨大成本。我认为在短期内，围绕营利性人工智能重用问题的知识产权之争将会打响。因为有些东西在互联网上是可用的，这是否意味着它可以免费商用？我们最近看到欧盟通过了新版权法规，对未经直接许可使用受版权保护的内容的行为进行了打压。这种方式是否会用于监管受版权保护内容的重用行为呢？

如果我们正在进入一个开放获取的世界，那么版权问题最终可能就不那么重要了，但谁会出钱让这些内容成为机器可读的呢？是否应将这些费用算入作者的研究预算中支付的出版费用里？高校图书馆是否应该承担IBM构建下一代业务工具的成本？这是出版商可以向AI社区提供的新（付费）服务吗？或者对于社区的成员来说，采用公开许可的内容并自行重组是否会更便宜/更容易?

最近，我在纽约大学斯特恩分校(NYU Stern)完成了一门有关人工智能的课程。课程范围涉及历史和定义，AI的类型，AI和深度学习的工作原理，甚至用PyTorch编写一个神经网络。像许多事物一样，AI也经历了几个时代的进步，并为其发展和当前的思维做出了贡献。它还有一系列的子定义:

1. 擅长于执行特定任务的狭义AI或AI

2. 一般性AI或能够显示人类智力的强AI

3. “在几乎所有领域都大大超过人类认知能力的” 超级智能

但是目前我们只看到了弱AI。

我同意大家的看法，数据非常重要，包括那些用于机器读取的数据，因此有一些危险和警告，以确保我们不会延续过去(和现在)的过错，或限制我们的创造力。另一个需要考虑的非常重要的概念是AI与人类的合作。对于一些更直接的任务，AI可能会取代人类(这不是自动化第一次造成人类工作的改变)。然而，对于更复杂或更具创造性的任务，AI和人类在一起完成可能会更好。《美国放射学会杂志》(Journal of the American College of Radiology)上发表的一项研究就涵盖了这方面的一个例子，研究人员发现，医生和AI合作比二者单独工作更有效。

我认为，与大多数探索的过程一样，尤其是在技术领域，AI伴随着风险，且其中一些风险是巨大的。在很大程度上，这些风险可以追溯到两件事：1) 技术的进步快于人性、理解力和法律的发展；2) 没有足够的解决方案来应对技术进步带来的重大风险。但是后者很难克服，因为在我们完全理解某件事之前，我们无法有效地减轻(或在某些情况下确定)所有相关的风险。

在合法性风险(比如长期存在的偏见)和可能更多根植于我们当前理解的风险之间找到平衡很困难。最重要的是，在最终找到最有效的解决方案之前，我们很有可能会把事情搞砸。我们还会阻碍可能具有影响力的道路，因为我们意识到“风险”很可能被视为对现状的维护。保持这两种状态之间的平衡非常困难，而且经常导致开发的迭代。在我看来，这也代表了一种健康的紧张关系，而且这种紧张本身就是一种缓解风险的策略！

转载本文请联系原作者获取授权，同时请注明本文来自数字科学交流科学网博客。
链接地址：https://blog.sciencenet.cn/blog-521339-1182352.html

上一篇：学术出版市场新星：“大学期刊”计划
下一篇：“Big Deal”再探：一份给学会的指南

收藏 IP: 117.152.70.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

数字科学交流

扫一扫，分享此博文

数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

AI和学术交流

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数字科学交流

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

AI和学术交流

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数字科学交流

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)