博文

用计量学研究核心文献和面向文本理解的实体消岐技术研究报告总结

已有 5141 次阅读 2013-11-19 14:16 |个人分类:讲座心得|系统分类:科研笔记| 信息抽取, 知识库, 计量学, 实体消岐

11月13日上午在南京大学信息管理学院听取了Prof. Dr. Wolfgang Gl?nzel教授有关《用计量学研究核心文献》的报告。利用计量学中的引用与被引用关系，构建文献之间的二维表，将余弦相似性（VSM）应用在此二维表，作者将其称之为偶合角，来度量文献之间的相似性。利用图结构将文献之间的相似性表示出来。作者还提出了两种相似性关系，文献A和文献B相似，是因为它们都引用了CDEF文献；文献A和文献B相似，是因为它们都被CDEF文献引用。
11月14日下午在南京大学计算机学院听取了孙乐教授有关《面向文本理解的实体消岐技术研究》的报告。随着用户信息需求的精准化和关联化的要求，我们需要对互联网上大量的信息进行抽取最终实现对文本理解。具体来说需要抽取实体、实体的类别、实体的属性以及实体之间的关系等等，将这些抽取出的信息组成知识库，可以用有向超图的形式表示。现有代表性大规模知识库有yogo、Dbpedia、Freebase、nell、google知识图谱，最有名的当属google的知识图谱，google要求并入其知识图谱的知识准确率大于99%，这是十分高的要求，因为知识是不断变化并不断增长的。现有的国外知识库很多，但国内的很少。作者介绍了其研究所在进行中文知识库的构建，包括常用词语、概念、概念类别、关系词等等。接着作者指出了知识库构建方面存在的问题，包括知识表示方法（RDF）、多个知识库的融合，垂直领域的高覆盖率知识库构建方法，接着孙老师具体介绍了信息抽取的方式为模式填充，例如对一个事件，抽取出事件的类型、地点、事件、死亡人数等。我们在百度、google检索页面右边看到的人名档案就是一种信息抽取案例。信息抽取常用方法有基于手写规则的方法和机器学习的方法。孙老师总结了构建知识库的准则：web2.0协同共建+信息抽取+人工验证。
通过大规模的知识库进行文本理解时，最重点和难点要处理的问题就是实体消歧，现有的中文语义计算有基本单元语义分析、组合语义的语义分析、篇章语义分析。实体消歧知识关注实体级别的语义分析，例如：苹果可以是一种水果，也可以是苹果公司。现有的解决方法是通过连接文本与知识系统来获取更多的信息进行实体消歧。
接着孙老师讲了他们研究所的3个工作：基于实体的知识链接，通过网络上词的出现频率，构建实体知识库，并对各个实体名字的各种形式，如原型、缩略、省略等也存储在知识库中，基于实体提及模型分析实体上下文词分布；基于篇章的主题链接是基于图传递进行协同推断篇章主题；融合实体知识的篇章总结，仅有实体知识是不够的，需要基于实体-主题模型建立文本主题模型。
最后作者提出了几点总结与展望：1.文本语义理解技术突破；2.从处理小规模文本到处理海量规模文本；3.从处理规范文本到处理多源异质文本；4.从对小规模文本的深度分析到基于冗余的浅层分析技术；5.从利用人工标注语料到利用自然标注语料；6.从注重准确率到注重召回率+时间效率.

转载本文请联系原作者获取授权，同时请注明本文来自李蕾科学网博客。
链接地址：https://blog.sciencenet.cn/blog-918667-743055.html

上一篇：听取词语认知属性的语言知识库建设报告总结
下一篇：参加《全国图书情报与档案管理博士生学术论坛》总结

收藏 IP: 219.136.52.*| 热度|

当前推荐数：5 推荐人：许培扬 曹聪 刘桂锋 章成志 王晓光

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

李蕾

扫一扫，分享此博文

leileiya的个人博客分享 http://blog.sciencenet.cn/u/leileiya

博文

用计量学研究核心文献和面向文本理解的实体消岐技术研究报告总结

当前推荐数：5 推荐人：许培扬 曹聪 刘桂锋 章成志 王晓光

该博文允许注册用户评论请点击登录评论 (2 个评论)

李蕾

全部作者的其他最新博文

全部精选博文导读

相关博文

leileiya的个人博客分享 http://blog.sciencenet.cn/u/leileiya

博文

用计量学研究核心文献和面向文本理解的实体消岐技术研究报告总结

当前推荐数：5 推荐人： 许培扬 曹聪 刘桂锋 章成志 王晓光

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

李蕾

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：5 推荐人：许培扬曹聪刘桂锋章成志王晓光

该博文允许注册用户评论请点击登录评论 (2 个评论)