||
题 目:汉语的分词问题
报告人:黄昌宁 清华大学教授、微软亚洲研究院高级顾问
时 间:2011年6月27日(星期一)上午9:00
地 点:中国科学技术信息研究所一层第五会议室(196房间)
(北京复兴路15号,中央电视台西侧)
报告人简介:黄昌宁原清华大学计算机系教授、博士生导师,1999年初受聘为微软亚洲研究院自然语言组首任主任研究员,2004年4月退休后继续担任研究院高级顾问。从事语言信息处理研究多年,曾任《中文信息学报》主编和多个国内外学术期刊的编委,主要研究领域包括自然语言处理、语料库语言学和统计机器翻译等。
报告内容简介: 过去十年间汉语自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中获得了可计算的定义,这是实现计算机自动分词和可比评测的重要基础;(2)实践证明,基于有指导学习的分词系统在分词精度上全面超越了传统的基于规则的分词系统;(3)Bakeoff的公开评测结果表明,未登录词造成的分词精度失落普遍比分词歧义大5倍以上;(4)实验数据还证明,能够大幅度提高未登录词识别性能的字标注方法优于以往的基于词(或词典)的方法,这种新方法使自动分词系统的精度再创新高。
欢迎所内外各界人士踊跃参加!
中国科学技术信息研究所
信息资源中心
学术委员会
二○一一年六月十五日
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-17 20:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社