inforworld分享 http://blog.sciencenet.cn/u/rbwxy197301 教学和科研过程中的心得。

博文

大规模知识图谱技术

已有 8042 次阅读 2014-4-20 19:52 |个人分类:文章转载|系统分类:科研笔记| 知识图谱

大规模知识图谱技术

王昊奋 华东理工大学


   近年来,随着链接开放数据(linking open data,LOD)等项目的全面展开,语义万维网数据源的数量激增,大量的资源描述框架(resource description framework, RDF)数据开始被发布。互联网正从仅包含网页和网页之间超链接的“文档万维网”演进为包含大量描述各种实体和实体之间丰富关系的“数据万维网”。为了改进搜索质量,国内外互联网搜索引擎公司纷纷以此为基础构建知识图谱,如谷歌知识图谱(Google Knowledge Graph)、百度“知心”和搜狗的“知立方”,从而拉开了语义搜索的序幕。

  1 知识图谱的表示和在搜索中的展现形式

  2 知识图谱的构建

  2.1 知识图谱的数据来源(百科类数据、结构化数据、搜索日志);从抽取图谱到知识图谱(实体对齐(Object Alignment)、知识图谱模式构建)

  2.2 知识图谱上的挖掘:推理、实体重要性排序和相关实体挖掘。

  2.3 知识图谱的更新和维护:知识图谱模式的更新;结构化站点包装器的维护;知识图谱的更新频率;众包反馈机制

  3 知识图谱在搜索中的应用:查询理解、问题回答。

 

总结

   本文比较系统地介绍了知识图谱的表示、构建、挖掘以及在搜索中的应用。通过上述介绍可以看出:

   (1)目前知识图谱的发展还处于初期阶段;

   (2)人工干预仍起重要作用;

   (3)结构化数据在知识图谱的构建中起到决定性作用;

   (4)各大搜索引擎公司为了保证知识图谱的质量多半采用成熟的算法;

   (5)搜索引擎公司展示知识卡片时比较谨慎;

   (6)更复杂的自然语言查询将崭露头角(如谷歌的蜂鸟算法)。

   此外,知识图谱的构建是多学科的结合,需要知识库、自然语言处理、机器学习和数据挖掘等方面的知识融合。有很多开放性问题需要学术界和产业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进知识图谱的发展。

11.pdf

   这是《中国计算机学会通讯》第二篇专门介绍知识图谱的文章。通过这些内容我们可以更好地理解计算机领域对于知识图谱的认识。近来,图书情报学刊物上的“传统的知识图谱”论文已经越来越难发表,其原因是原来对知识图谱的理解和认识仅仅是停留在“内容的可视化”,如果想有新的突破,就要深入要“知识单元”和“知识单元”之间的联系,从中挖掘更加细颗粒度的内容。这篇论文对图书情报学知识图谱的研究应该有重要的参考价值。计算机学科关注的是搜索引擎和网络资源,图书情报学应该继续关注文献信息检索系统和文献信息资源。只有将更多的理论和方法应用到知识图谱的研究当中,图书情报学知识图谱的研究才能迎来一个新的机会。


  CCF ADL 2014年9月在北京有一次“知识图谱”的专题,值得关注。



https://blog.sciencenet.cn/blog-113146-786845.html

上一篇:《情报学报》在线投稿系统启用
下一篇:听何玉山先生学术报告的一些感受
收藏 IP: 60.170.236.*| 热度|

2 刘宇 贡金涛

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-28 12:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部