inforworld分享 http://blog.sciencenet.cn/u/rbwxy197301 教学和科研过程中的心得。

博文

下一代搜索引擎的焦点:知识图谱

已有 6052 次阅读 2013-5-27 22:16 |个人分类:信息检索|系统分类:科研笔记| 搜索引擎, 知识图谱

   

   清华大学的张静和唐杰在《中国计算机学会通讯》2013年第4期刊上发表了一篇题为“下一代搜索引擎的焦点:知识图谱”文章。全文从知识图谱的推出、知识谱的应用、关键技术和、知识图谱类似的产品和挑战5个方面对这个题进行了相关内容的介绍。

   (全文见:http://www.ccf.org.cn/resources/1190201776262/2013/04/18/12.pdf)


   以下内容摘自原文:


   2012年5月17日,谷歌官方博客发布了谷歌知识图谱 (knowledge graph) 智能化搜索功能。知识图谱秉承语义网的宗旨,是谷歌用来优化搜索结果,使其具有语义性的知识库系统。谷歌表示,人们使用搜索功能是为了方便快捷地发现知识,开阔眼界。然而目前的搜索系统远不够智能,仍然需要大量的用户交互才能获得期望的搜索结果。谷歌推出的知识图谱智能化搜索功能,其目标就是对搜索结果进行系统的知识整理,使每个用户查询的关键词都能映射到知识库的概念上。


   正是由于词语的丰富含义,谷歌致力于研发一个智能模型——知识图谱,以此来理解现实世界中的每一个实体以及他们之间的相互关系。简而言之,知识图谱就是对谷歌索引的所有事物、人物和地点,例如地标性建筑、名人、城市、球队、大楼、电影、艺术品等,构建他们之间的关系网络。早期的知识图谱智能搜索是建立在诸如 Freebase、维基百科以及美国中央情报局出版的《世界概况》等著名公开数据源上,其涉猎范围囊括了 5 亿多个对象实体以及 350 亿条关于这些对象实体的关系网络。最近,谷歌又通过机器学习和数据挖掘方法,从索引的网页中自动发现新的实体和实体关系,从而扩大、完善了知识图谱。

   通知知识分类提高搜索精度;通过知识分类优化搜索结果的展示。


表1 公开的知识图谱库

名称 内容 数量 网址

DBpedia 维基百科 1900万实体,1亿关系 http://dbpedia.org

Wiki-links 维基百科 4000万排除歧义的关系 http://code.google.com/p/wiki-links/

Freebase 多种网络来源 6800万实体,10亿关系 http://www.freebase.com/

Data.gov 美国官方政府网站 64亿关系 http://www.data.gov/semantic/index

WolframAlpha 计算知识 10万亿实体 http://www.wolframalpha.com/ 


  关键技术:首先是知识图谱中实体及实体关系的建立;其次是从无结构或半结构的文档中抽取结构化信息,即抽取实体;最后是如何很好地组织和存储抽取的实体与关系的信息,使其能够迅速地访问或操作。为达此目标,谷歌用MapReduce将所有实体进行索引,并使用自然语言处理工具对其进行处理。


  类似产品:微软在必应基础上提供了Satori,致力于从无结构化的web文档中抽取数据构建结构化的知识库,并在些之上提供结构化数据的搜索功能。另外,百度的实体搜索、搜狗的知立方、facebook的社交图谱也都是这方面的尝试。

 

  本文最后的挑战很有价值:

  (1)如何实现知识库的自动扩展,包括新实体的自动发现、实体关系的自动抽取及实体语义的版排歧等;

  (2)如何利用知识库实现真正的智能搜索,其核心研究问题是如何结合知识库进行浅层推理来理解用户查询场景、分析用户查询语义,以及对搜索结果进地智能整理和展示。

  (3)如何实现知识库的跨语言支持

  (4)如何将用户个性化偏好和知识图谱有机结合,做到个性化知识图谱检索。


   这里的知识图谱与图书情报学目前关注的知识图谱之间在一定差距,但图书情报学和计算机科学在这个方面是一个交叉领域,如何两个知识领域能够有机的融合,一定可以有一些意想不到,但非常神奇的成果出现。



https://blog.sciencenet.cn/blog-113146-694092.html

上一篇:本科论文查重
下一篇:望淮塔
收藏 IP: 60.170.236.*| 热度|

10 赵星 许培扬 武夷山 姜春林 朱云霞 章成志 化柏林 杨冠灿 王一华 rosejump

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 07:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部