|||
引用本文请注明出处
作者:ANN MICHAELAPR;译者:刘欣怡;校译:陈铭
来源:https://scholarlykitchen.sspnet.org/2019/04/25/ask-chefs-ai-scholarly-communications/
毫无疑问,人工智能(Artificial Intelligence,AI)需要“消化”数据(最好是大量数据)来获得发展,数据的质量越高,其结果就越好。当AI应用于研究相关的学术交流领域时,它将如何运作?如何训练AI使其适用于高质量、经过审查的信息?以及如何分配收益和成本?
Judy Luther:学术交流中有很多可公开获取的内容,比如常见的预印本服务器(如arXiv和bioRxiv)、开放获取期刊和图书。此外,还有越来越多的形式,包括数据集和代码、开放的同行评审、媒体以及学术研究环节的其他要素。这些都为所有利益相关者以及公众提供了丰富的资源。
虽然AI最常用于消费领域,但其在研究领域的应用也并不新鲜。Meta就是一个例子,它是一款科学搜索引擎,2017年被Chan Zuckerberg Initiative (CZI)收购。Meta的创始人Sam Molyneux和他的妹妹Amy与一组工程师和科学家合作了六年,开发了一系列人工智能工具,用以分析现有的和新发表的研究成果。他们还与出版商建立合作关系,以获取受版权保护的内容。
生物医学是一个很好的入口,该领域每天都会发表4000篇文章,大量的内容使得规模化操作成为可能,也正因此,该领域的研究需要工具配合。Meta的分析能够检测出研究的模式,这有助于研究人员确定合作者,以及帮助资助者寻找投资机会,它甚至可以预测哪些论文的影响更大。
CZI计划把Meta推广到整个学术界。对于不同的学科,为了适应不同格式和性质的研究成果,可能需要对该工具进行调整。因此,研究是否需要强大的赞助方,合作伙伴,或者即插即用工具?这一切将取决于成本和效益的价值。
Tim Vines:我们需要很多AI工具来帮助科研人员更好地进行研究,比如帮助运行实验室的工具、改进数据共享的工具、提高同行评审效率的工具。很多这样的AI工具都是通过注解研究文献生成的培训数据来获得学习。
不过,与Meta和爱思唯尔内部进行的AI研究的雄心相比,这些都不值一提。这些项目消化了大量的研究文献,旨在实现更广泛地自动化研究,特别是生成假设。
但研究文献是否真正反映了我们对世界的理解?或许这种理解仅存在于研究人员的头脑中,这些信息通过他们与同事的非正式(在家中或会议上)的互动获得了补充。
同行评审倾向于修正草稿中的不当表述,而AI只接受带注释的研究文章的训练,因此它可能仅限于生成普适性的假设;事实上,我们可能无法把实现突破性研究的智能飞跃寄希望于机器。如果是这样的话,Meta和爱思唯尔可能还想从酒会的谈话中收集人工智能训练数据。
David Smith:从理论上看,学术成果有点类似于19世纪末发现金矿的克朗代克河,克朗代克河引发了大规模的淘金热,同理,这可能是风投公司和硅谷对“AI+学术研究”感兴趣的原因。然而,在现实中,基于AI的机器能够出色地阅读和分类工程文本,但它离不开真正高质量、准确、描述良好的数据的支持,这才是挑战的开始。
坦白地讲,就目前的情况来看,研究文献并不是一个很好的“原材料”。它不是为机器而写的,它的要素不容易解耦和利用;而且机器缺乏足够的背景、描述和组织来大规模地收集数据,更何况很多时候数据是错误的……研究本质上是一个学者不断减少不确定性的过程,对于人类来说这是可以实现的,但机器似乎很难做到。
数据集也并没有好到哪里去。同理,为一台机器整理、管理和组装一个好的数据集需要大量的工作。你可以不使用它,但一旦你真正开始尝试使用它后,AI将会受到影响。毕竟好的样品和成品之间还是有很大的差别。
考虑到大多数数据都是错误的,而基于错误数据构建的AI可能是毁灭性的——如果你想了解一些用于训练AI的医学图像数据集的细节,可以看看Luke Oakden-Rayner的法医分析,胸部x光片可能会让你不寒而栗。
但是AI的潜力可能超乎想象,为了实现它的潜能,我们需要做大量的工作:
1. 为了配合研究文献,我们需要对机器输出进行适当的讨论。
2. 研究文章需要有语义上的声明性和思辨性的表述,以帮助机器进行模式匹配和交叉引用。
3. 我们需要讨论如何实施必要的检查和平衡,以便使用真正具有代表性和构造良好的数据集来构建AI。
这将耗资巨大。因此,每当我看到有关学术成果机器可读的各种政策声明时,我都不禁眉头一皱。其实让人们下载一些xml并无伤大碍,重要的是没有人研究如何才能真正实现高质量的原始材料。
Alice Meadows:我越了解 AI的广泛使用,我就越感到恐慌。从理论上讲,这听起来很棒——过去需要几年甚至几十年才能解决的问题,现在几分钟甚至几秒钟就能解决;它推动了节省时间设备的开发,因此我们可以花更多的时间在有趣的事情上;在学术交流界,AI为同行评审、数据分析等功能的加速和改进提供了机会。但我们都知道,AI至少有一个显著的弊端:它不仅容易受到偏见的影响,而且会因此被毁掉。尽管大家可能倾向于认为基于学术性的、经过同行评审内容驱动的AI解决这个问题,但我不太确定。
我们知道自己的内容并非完全没有偏见。例如有色人种的作家和审稿人的数量均受到限制;北半球的学者和科学家对于AI数据库和其他资源更有发言权;而且女性研究发表的可能性仍然低于男性同事。更不用说引用和其他代表质量的指标通常是基于数量的(数量与质量并非完全划等号),而且也同样容易产生偏见。
因此,尽管使用学术内容作为基础的AI可能比使用那些甚至没有经过事实检验或有明显偏见的内容(地理、政治、人口统计或其他方面)要好,但我仍不相信它能解决根本问题。引用Safiya Noble的话说,无论他们使用什么内容,AI所基于的算法仍然意味着“内容可能被扭曲,虚假信息可能泛滥”。
Jasmine Wallace:学术交流是由学术分享和发表研究成果所推动的,其中大部分是对方法和原则的理论分析。如果想象一个由学者、学者和研究人员组成的更加互联的网络,拓宽他们的集体知识的范围,最后落脚点就是AI。学术出版界已经看到了人工智能在编辑和制作方面的进步:自动化报告、内容翻译、预测分析、内容个性化和图像识别,这些只是AI帮助提高学术产出的几种方式。
然而,随着进一步深入研究机器学习和高级预测分析,我们不得不提供强大的元数据来实现AI效益的最大化。为了提高AI更加优质化智能化的输出的能力,我们必须从更高质量的输入入手。现在,机器可以获取我们的元数据并使用自动化分析,这样可以改进我们的工作流。此外,通过良好的计算,算法可以帮助我们解决需要数月或数年才能解决的问题。
出版商对数据更加用心了,我们定义数据的含义以及如何利用这些信息,并且利用这些信息帮助自己和我们的服务对象做出更明智的决策。我们的学术成果变得更有目的性和针对性,并且能够更好地转向数据挖掘的新领域。几十年来,我们一直是世界科学传播的把关人,借助AI技术,我们能够获得数据的数据,并有能力推动学术的进步。利用学术交流的力量,我们可以成为AI发展的核心。如果能训练系统去发现和建立人类大脑所不知的联系,我们发现的可能性将是无穷无尽的。
在一个关于AI在编辑领域应用的小组讨论中,Sundari Ganapathy谈到了推进人工智能的最大障碍是让人们不再害怕它。她解释说,如果能够让人类更多地与机器互动,并训练它们更好地完成工作,那么我们就能开始看到更多改进的系统。最后,她指出,AI的作用应该是增强人类知识,而不是取代人类知识——这通常是人们的反应。话虽如此,除了与技术使用相关的成本外,我认为,为了在人工智能领域看到更多有用的发展,我们需要更大胆地投入。
David Crotty:在上面的回复中,Judy谈到了开源内容的优势,David提到了将这些内容应用于AI训练所涉及的巨大成本。我认为在短期内,围绕营利性人工智能重用问题的知识产权之争将会打响。因为有些东西在互联网上是可用的,这是否意味着它可以免费商用?我们最近看到欧盟通过了新版权法规,对未经直接许可使用受版权保护的内容的行为进行了打压。这种方式是否会用于监管受版权保护内容的重用行为呢?
如果我们正在进入一个开放获取的世界,那么版权问题最终可能就不那么重要了,但谁会出钱让这些内容成为机器可读的呢?是否应将这些费用算入作者的研究预算中支付的出版费用里?高校图书馆是否应该承担IBM构建下一代业务工具的成本?这是出版商可以向AI社区提供的新(付费)服务吗?或者对于社区的成员来说,采用公开许可的内容并自行重组是否会更便宜/更容易?
最近,我在纽约大学斯特恩分校(NYU Stern)完成了一门有关人工智能的课程。课程范围涉及历史和定义,AI的类型,AI和深度学习的工作原理,甚至用PyTorch编写一个神经网络。像许多事物一样,AI也经历了几个时代的进步,并为其发展和当前的思维做出了贡献。它还有一系列的子定义:
1. 擅长于执行特定任务的狭义AI或AI
2. 一般性AI或能够显示人类智力的强AI
3. “在几乎所有领域都大大超过人类认知能力的” 超级智能
但是目前我们只看到了弱AI。
我同意大家的看法,数据非常重要,包括那些用于机器读取的数据,因此有一些危险和警告,以确保我们不会延续过去(和现在)的过错,或限制我们的创造力。另一个需要考虑的非常重要的概念是AI与人类的合作。对于一些更直接的任务,AI可能会取代人类(这不是自动化第一次造成人类工作的改变)。然而,对于更复杂或更具创造性的任务,AI和人类在一起完成可能会更好。《美国放射学会杂志》(Journal of the American College of Radiology)上发表的一项研究就涵盖了这方面的一个例子,研究人员发现,医生和AI合作比二者单独工作更有效。
我认为,与大多数探索的过程一样,尤其是在技术领域,AI伴随着风险,且其中一些风险是巨大的。在很大程度上,这些风险可以追溯到两件事:1) 技术的进步快于人性、理解力和法律的发展;2) 没有足够的解决方案来应对技术进步带来的重大风险。但是后者很难克服,因为在我们完全理解某件事之前,我们无法有效地减轻(或在某些情况下确定)所有相关的风险。
在合法性风险(比如长期存在的偏见)和可能更多根植于我们当前理解的风险之间找到平衡很困难。最重要的是,在最终找到最有效的解决方案之前,我们很有可能会把事情搞砸。我们还会阻碍可能具有影响力的道路,因为我们意识到“风险”很可能被视为对现状的维护。保持这两种状态之间的平衡非常困难,而且经常导致开发的迭代。在我看来,这也代表了一种健康的紧张关系,而且这种紧张本身就是一种缓解风险的策略!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 08:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社