数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

如何借助人工智能技术征服科学文献?

已有 3372 次阅读 2018-10-30 22:17 |个人分类:科学交流|系统分类:海外观察| 人工智能, 自然语言处理

引用本文请注明出处

作者:Andy Extance;译者:王心雨;校译:陈铭

来源:https://www.nature.com/articles/d41586-018-06617-5

随着用于文献数据智能检索的人工智能(Artificially IntelligentAI)工具不断发展,开发人员探索AI如何能够自动生成科学文献中的假设并完成验证。

当计算机科学家克里斯蒂安•伯杰(Christian Berger)的团队在公路上进行自动驾驶汽车算法研究项目时,面临着一个巨大的障碍:瑞典哥德堡大学(the University of Gothenburg)的科学家们在系统的文献综述中搜索到超过10000篇关于这一主题的论文,伯杰的团队需要一年的时间才能将这些文献全部探究完。

幸运的是,他们找到了一个人工智能文献探索工具“爱莉丝(Iris ai)”,通过发送研究问题的300~500字的描述,或是已有论文的URL链接,位于柏林的服务器会返回得到数千个与文档相匹配的图谱,这些图谱能够按主题进行可视化分组。伯杰说,这样的方式可以快速准确地提供与研究问题相关的内容概览。

爱莉丝(Iris ai)是提供针对性知识领域内的新型AI导航工具之一。这类工具包括著名的“语义学者(Semantic Scholar)”,这是由位于华盛顿西雅图的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)和微软学术(Microsoft Academic)联合开发的。

伦敦艾伦图灵研究所(Alan Turing Institute)的数据研究科学家乔瓦尼·科拉维扎(Giovanni Colavizza)主要研究的是学术出版物的全文分析。他说,这类AI工具提供最先进的信息检索服务,能够进行更加深入的文本分析,而传统的工具更多是提供引文索引。

也就是说,这些工具通常都很昂贵,而且受到它们搜索的科学文献的限制。华盛顿州立大学(Washington State University in Pullman)动物健康图书管理员苏珊娜·弗里克(Suzanne Fricke)曾在《语义学者(Semantic Scholar)》上的一篇文章(S. Fricke J. Med. Lib. Assoc. 106, 145–147; 2018)谈到:“有些工具并不是为了帮你把结果全部搜索出来,而是为了让你快速地了解一个主题,这就是为什么他们应该和其他工具结合起来使用的原因。”伯杰响应了这一观点:“盲目地使用研究引擎并不能自动回答每一个问题。”

向机器教授科学

基于AI技术的“快速阅读”对于研究者来说是很有帮助的,因为科学文献数量庞大。据估计,世界上新的论文以每年一亿的速度在出版,相当于每30秒就会发表一篇论文。事实上,研究员们几乎不可能跟上论文发表的速度,即使在他们自己相对狭窄的研究领域内。因此,一些人试图用计算机来克服“论文洪水”。

这些工具的驱动算法通常执行两个功能:一是摘录科学文本,二是提供例如筛选、排序、搜索结果分组等高级服务。科拉维扎解释道:“算法采用自然语言处理(NLP)技术来提取科学内容,这种技术试图用人类使用的语言来解释。”开发人员能够使用受监督的机器学习,例如在训练集里包含“标记”实体,训练算法识别和提取信息,例如一篇论文的作者、参考文献。

为了提供更先进的服务,算法通常构造“知识图谱”,向用户展示被提取出来的实体之间的细节关系。例如,当“药物”和“蛋白质”出现在同一个句子里时,AI会提醒学者它们是相关的。科拉维扎说:“知识图谱将实体编码为数据库中的显式关系,而不仅仅是文档中的一个句子,关键是让机器可以阅读和理解。”

科拉维扎指出:“爱莉丝(Iris ai)采取了不同的方法,根据文档中的单词把文档分类到不同的主题中。”爱莉丝(Iris ai)先在包含了1.34亿篇OA论文和学术期刊的可检索数据库链接仓库(Connecting Repositories)中进行搜索。爱莉丝(Iris ai)首席技术官维克托·博特夫(Viktor Botev)说:“这一AI工具综合了三种算法来创建‘文档指纹’以反映词汇使用频率,并根据相关性对论文进行排序。”

检索结果显示出一张相关论文的地图,但最终,该公司计划通过在每一篇论文中发现的假设来补充这些结果。他们还在开发一个并行的,基于区块链的项目“艾尔Project Aiur)”,它试图使用AI来检查研究论文的每个方面,以对抗其他科学文献,从而验证假设。

科拉维扎表明,类似爱莉丝(Iris ai)这种工具的基本查询是免费的,但是如果要使用高级搜索功能,需要支付每年高达20000欧元(23000美元)的费用,以进行更加精细的搜索,帮助研究者迅速踏入新的领域。科拉维扎还说:“它帮助我在熟悉领域内对文献进行初步探索。”

科拉维扎认为,专家学者在查找他们自己的专业内更深刻的见解时可能会考虑使用免费的AI驱动工具,例如微软学术或语义学者。另一个类似的可供选择的工具是维度(Dimensions),这个工具的基础使用是免费的,但是使用可编程的维度搜索语言(Dimensions Search Language)来获取数据也是收费的。维度(Dimensions)是由数字科学(Digital Science)科技公司创建的,该公司由霍尔茨布林克出版集团(Holtzbrinck Publishing Group)运营,该出版集团也持有《自然(Nature)》杂志的大部分股份。

科拉维扎说,语义学者(Semantic Scholar)有一个搭建在浏览器上的搜索栏,模仿如Google之类的引擎。但是它比谷歌学者(Google Scholar)提供了更多的信息,能够帮助学者确定搜索结果的优先级,包括了人气指标、数据集和方法的主题、以及引用文本确切的摘录位置。科拉维扎补充说:“我惊讶地发现它们也能够捕捉到间接引用,”例如,有时研究者们不会提起已经确定下来的方法或想法。

语义学者的总经理雷蒙德(Doug Raymond)说,每个月约有一百万人使用这一服务。语义学者使用自然语言处理技术提取信息的同时建立连接以决定信息是否相关和可靠。雷蒙德补充道:它可以识别出不明显的关联,例如与计算生物学相关的计算机科学方法论,它能够帮助识别未解决的问题和重要的需要验证或反驳的假设。目前,语义学者包含了超过四千万篇计算机和生物医学领域的文档,并且它的语料库还在不断扩张,雷蒙德说,“最终我们想要容纳所有学术的知识”。

其他工具,例如德国海德堡欧洲分子生物组织(European Molecular Biology Organization)的“源数据”,更多是关注实验数据。作为欧洲分子生物组织《分子系统生物学(Molecular Systems Biology)》的杂志主编,托马斯·伦贝格(Thomas Lemberger)想要让潜藏在数字中的数据更容易被找到和查询。因此源数据会深入研究数字和它们的标题,列出实验中涉及的生物对象,比如小分子、基因或有机体。这让研究员们可以查询它们之间的关系,识别出解决这些问题的论文。例如,搜索“胰岛素会影响葡萄糖吗?”会检索到十篇文内有“测量胰岛素(分子)对葡萄糖(分子)的影响”的论文。

林伯格(Lemberger)说:“源数据刚刚起步,已经生成了包含2万个实验的知识图谱,这些在编辑过程中人工策划的实验大约有1000篇文章。”这个在线工具目前仅限于这个数据集,但是林伯格和他的同事正在训练机器学习算法试图解决这个局限。源数据团队也在和柏林洪堡大学(Humboldt University)的神经生物学家马修·拉库姆(Matthew Larkum)领导的跨学科神经科学联盟合作,致力于改进神经科学领域的源数据版本。在其他地方,马萨诸塞州剑桥大学的IBM沃森健康(IBM Watson Health)在八月宣布它将把AI与来自施普林格•自然集团(Springer Nature)的基因数据相结合,用来帮助肿瘤学家定义治疗方法。(《自然》新闻团队是独立于其出版社的。)

有用的假设

荷兰乌得勒支的Euretos有大约20名客户致力于提出假设。Euretos创建人之一的Arie Baak解释道,公司向工厂和学术界出售工具,主要用于发现和验证生物标记和药物靶标,但是他并没有透露售价。

Euretos使用自然语言处理技术解释学术论文,这是它集成200多个生物数据库的第二部分。为了理解它们,这个工具依靠许多“本体”,即结构化关键词列表。生命科学家发明“本体”用来定义和连接他们学术领域的概念。

巴克(Baak)在Euretos上搜索一种叫做CXCL13的信号蛋白来进行论证。出现在检索结果列表上的有“代谢物”和“疾病”等类别。界面更像是现在的谷歌学术或PubMed(某生物医学数据库),都有搜索结果的排序列表。但是点击一个类别就会出现额外的选项。例如,选择“基因”就会出现一系列与CXCL13有关的基因,按照被引用数多少来排序;另一个点击则会出现解释 CXCL13和其他基因之间联系的图表。

荷兰莱顿大学医疗中心(LUMC)的研究员发现这种方法可以产生新的假设,发现已有药物可以治疗的潜在疾病。这个团队在201712月罗马的“用于卫生保健和生命科学的语义Web应用和工具”会议上发表了他们的研究成果。他们还使用了Euretos来识别一种叫做“脊髓小脑性共济失调3型”的神经系统疾病的基因变化。(L. Toonen et al. Mol. Neurodegener. 13, 31; 2018)

所以,研究员们需要担心人工智能生成的假设会让他们失业吗?科拉维扎认为假设生成是一个“非常具有挑战性”的工作,最初的改进将是渐进式增量的。因此,迄今为止提出的假设都出现在“相对不令人吃惊的领域”。

当然,这种情况可能会改变,计算机生成假设仍然有待检验,需要人类研究员来进行。荷兰莱顿大学医疗中心(LUMC)的研究员克里斯蒂娜·海特(Kristina Hettne)提醒道:“一个人不应该在没有调查潜在证据的情况下直接相信自动生成的假设。尽管这些工具能够帮助收集已知的证据,但验证是必须的。”




https://blog.sciencenet.cn/blog-521339-1143661.html

上一篇:人类感知对出版工作流程的影响
下一篇:解读:Elsevier收购Aries系统
收藏 IP: 218.197.153.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 11:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部