中信所第五期青年学术沙龙:文献标引与领域词汇获取相关主题
已有 4808 次阅读
2009-4-14 12:53
|个人分类:同行交流|系统分类:科研笔记|
自动标引, 学术沙龙, 自然语言处理, 计算语言学, 词语聚类
关于举办中信所第五期青年学术沙龙的通知
题目:文献综合自动标引与词语聚类研究
时间:4月17日(周五)下午2:00
地点:中信所办公大楼333室
承办单位:研究生部
形式:沙龙以研讨为主,拟请暨南大学副教授刘华博士做主题发言,报告大纲如下:
1. 基于关键词主题度的文献综合自动标引研究
良好的信息组织和资源表示是高质量信息利用的基石,文献综合自动标引,即类目、主题词和摘要的标引,是信息组织和资源表示的核心。
目前,文献自动标引基本上是类目、主题词和摘要分别标引,分成三个研究领域:文本分类、主题词标引和自动文摘。
实际上,文献综合自动标引有其共同基础,例如,文本分类的关键步骤类向量构建是基于词语权重计算和选择的,主题词标引更是直接以主题特征明显的词语为标引项,自动文摘的句子权重计算也以词语权重计算为基础。因此,文献综合自动标引都是基于词语权重计算,力图凸显主题特征明显的特征词(如领域术语)。三者在关键词主题度计算的基础,可以合而为一。
关键词是标识和表达文档主题概念的词语,关键词的主要特征是主题性。针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,完成了一个文献综合自动标引系统,集成文本分类、主题词标引和自动文摘功能。
2. 词语聚类研究
领域知识获取是文本处理中的基础关键技术,目前,有许多方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法主要利用人工构建好的领域知识在大规模语料中利用模板匹配的方式获取领域词语。也有一些知识库主要依靠专家手工构建,如WordNet、HowNet。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。
本报告将简要介绍如何利用大规模分类语料库中关键词标引的特征提取方法自动获取领域词语。并演示相关的实验结果。
主题发言人介绍: 刘华,男,1975年生,博士、暨南大学副教授。1998年从湖南科技大学中文系毕业,获学士学位,爱好文学;2002年从云南师大毕业,获硕士学位,主攻语言学;2005年毕业于北京语言大学中文信息处理专业,师从张普教授,获博士学位,主攻计算机软件和计算语言学。
目前主要从事信息组织、信息检索、数据挖掘及自然语言处理等领域的教学与科研工作,特别是在文本分类、主题词标引、自动文摘、新词语发现和词语聚类方面有一定的研究。曾参与或主持的项目包括863项目、973项目、国家语言文字应用"十五"科研课题重大项目、国家社科基金项目(主持、在研)、国家语委项目(主持、在研)、广东省社科项目(主持、在研)等。近3年来在国内外期刊和会议上发表学术论文20余篇,EI、ISTP收录论文3篇。
参加人员:中信所学术沙龙成员,所内广大青年职工。
所学术委员会
所青年学术沙龙
2009年4月13日
欢迎感兴趣者参加,并能参加讨论。
https://blog.sciencenet.cn/blog-36782-226073.html
上一篇:
计算机与信息科学交叉研究领域:X-informatics (转载2篇)下一篇:
关于一词多译