PingFucwu的个人博客分享 http://blog.sciencenet.cn/u/PingFucwu

博文

发现平台的相关性排名算法

已有 2903 次阅读 2018-7-24 07:42 |系统分类:论文交流

 

确定文档和查询之间的相关度是信息检索的核心问题,相关性排名方法是最优检索和发现平台的基础,也是AI机器学习的一个主要内容。使用者可以用文本查询的方式表达其信息需求,该查询与在索引阶段提取的文档表示进行比较。文档和查询的表示通常使用余弦的相似性函数相匹配给出两篇文档在其主题方面的相似度。将最相似的文件提交给用户评估他们所要查找问题的相关性。AI的技术应用于信息检索主要就是解决正确表示文档和匹配不精确表示的问题

目前主流的发现平台的相关性排名策略使用了许多标准,包括词频、字段权重、精确标题匹配和内容属性提升,为用户提供每个搜索查询最相关的结果。相关评分的主要影响因素是用户搜索条件匹配数据库元数据和全文记录的频率。目标是在第一页显示最相关的结果。样板的相关性排名计算中使用的最有影响力的领域按照下面的影响顺序列出:与主题词匹配、标题中的出现的术语、作者提供的关键字、摘要中的关键词、作者、全文中匹配的关键字。有些平台还根据一些属性来判断相关性:比如出版物中的及时性意味着最近的文章排名更高;与搜索关键词相关的出版类型,标定同行评审状态有助于学术研究人员快速定位其领域的关键;文章的长度,确保当其他因素相同时,较短的文章被认为价值较低

例如Primo相关性排名机制利用ScholarRank智能排名技术根据以下几个标准按相关性对搜索结果进行排序:文章与查询匹配的程度,表示文章学术意义的价值分数,文章与用户的特定查询和配置文件的相关性,文章的发布日期(近期),个性化排名。为了使图书馆更灵活和容易控制,Primo使图书馆能够调整自己当地资料的相关性排名。首先,图书馆可以增强某些元数据领域,增加它们的权重。其次,图书馆可以选择将来自不同来源的结果混合到单个结果列表中(例如,将Primo Central结果与来自本地集合的结果混合),所有其他因素是平等的前提下使本地项目优先排在Primo Central之前。Ex Libris还通过分析搜索日志、用户研究、客户反馈和Primo客户群体的意见,不断增强和优化Primo相关性排名技术

微软研究人员MitraCraswell探索了神经网络用于信息检索的应用前景。信息检索的神经网络排序模型使用浅层或深层神经网络来根据查询对搜索结果进行排序。传统的学习排序的模型是在手工标注的信息检索特征上使用机器学习技术,与之相反,神经网络模型可以从原始文本材料中学习语言的表征,这些材料可以弥合查询与文档词汇之间的差距。不同于经典的信息检索模型,这些新型机器学习系统在可被部署之前需要大量的训练数据

神经网络信息检索指的是将浅层或深层神经网络应用于这些检索任务之上。一条搜索查询通常可能会包含一些词语,然而文档的长度会根据特定的场景而改变,从几个词到成百上千个句子甚至更长。信息检索的神经网络模型使用文本的向量表征,通常这包含了大量需要调整的参数。带有大型参数集的机器学习模型通常需要大量的训练数据。不同于传统的在一个手工标注的特征集上训练机器学习模型学习排序的方法,信息检索的神经网络模型通常可以将查询和文档的原始文本作为输入。学习文本的恰当表征也需要大量数据训练。因此,不同于经典信息检索模型,这些神经网络方法非常需要数据,数据越多,性能越好

计算机视觉、语音识别和机器翻译的性能由近期在神经网络模型方面的进步所推动,这些神经网络通常有多个隐藏层,称之为深度架构。诸如会话代理和玩游戏达到人类水平的代理这样令人激动的全新应用也相继出现。现在,信息检索领域也开始应用这些神经网络方法

QuertleLLC公司的AI发现平台Qinsight Quertle是第一个用于生物医学文献的AI生物医学大数据发现平台的开发商,QuertleElsevier合作,2017年开始用于全文检索Elsevier的信息来源ScienceDirectQinsight使用生物医学优化的神经网络机器学习自然语言处理模式匹配和其他AI方法来模拟专家的大脑如何发现最相关的信息,辨别关键事实并发现关键概念。 Qinsight还提供先进的视觉分析来总结结果,预测趋势并发现文献中的隐藏联系

总之发现平台的相关性排名算法正由人工引领(Human-led Algorithm)的算法向机器引领(Machine-led Algorithm)的算法过渡

本文摘自我们的论文

傅平,邹小筑,吴丹等. 回顾与展望:人工智能在图书馆的应用[J]. 图书情报知识, 2018, 0(2): 50-60.    

链接本文:   http://manu03.magtech.com.cn:81/Jweb_tsqb/CN/10.13366/j.dik.2018.02.050     或     http://manu03.magtech.com.cn:81/Jweb_tsqb/CN/Y2018/V0/I2/50



https://blog.sciencenet.cn/blog-3316383-1125611.html

上一篇:中兴事件折射出国人法规观念和意识淡薄
下一篇:新一代共享图书馆集成管理系统和图书馆联盟
收藏 IP: 72.233.203.*| 热度|

1 王启云

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 09:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部