||
(按:近日拜望了计算语言学家黄昌宁先生,他是SIGHAN的推动者,对标准制定、资源构建、语言建模有着深厚积累与深刻理解。他强调语言问题的可计算、可评测一直深深影响着我。)
2003年在日本札幌召开的SIGHAN,是中文分词的里程碑。
做中文计算,需要先分词。但是分词标准很多,词表不同,语料库也不同,造成自动分词系统很难有一个标准的评判。分词的结果往往依靠人来评价,容易出现公说公有理婆说婆有理的窘境,不利于技术进步。
SIGHAN2003的贡献在于,团结了四家做分词语料库的单位,北大、宾州树库、微软、香港(繁体现代文)各有一套分词规范,也都有配套的语料库。于是乎,四种语料一起比赛,分为训练集和测试集,评测的结果全靠机器自动来评分。每种语料,都各自评分,最终考验的就是算法,不会再纠结于一词一处的争论。
虽然赛后也有参赛队反馈,评测的语料中有一些分词错误,但是无伤大雅。因为,人工标注难免出现一些差错。而更好的结果是,国内学界普遍认同了这种构建高质量语料,通过公开、公平的技术评测,考验机器学习算法的研究路径。
自此,提高语料库的质量,减少标注规范的内部冲突,提升机器学习的算法性能,成为不同团队努力的方向。而这种趋势不止于汉语分词问题,学界的氛围越来越好,北大的现汉综合型语言知识库影响力越来越大,而清华、中国科学院、哈工大三驾马车的算法也越来越强。
SIGHAN在后续的评测中,每隔一两年就举办一届,涵盖了汉语分词、词性标注、命名实体识别、句法分析等等。可以说,把汉语分析的基本任务都走了一遍,有力地推动了资源建设、技术进步和人才梯队的培养。
虽然SIGHAN2002是第一届,但是没有举办评测,作为ACL的汉语特别兴趣小组(SIGHAN:special interest group of 汉语),召开的工作坊。2001时,仅称为Chinese Language Processing Workshop(汉语处理工作坊)。
2015年,是SIGHAN的第八届会议,影响力还比较大。到了2017年,没有举办评测,仅有6篇论文。似乎没有什么大家特别关注的汉语NLP问题需要进行评测。六年来,SIGHAN消失在学界的视野中。
之所以“似乎”,是因为汉语的评测并没有停歇,在全国计算语言学大会CCL和计算机学会的NLPCC两个国内的计算语言学大会上,分别开设了技术评测Workshop,每年举办几个至十几个汉语评测任务,例如分词(多领域)、句法分析、语义分析、阅读理解等等。还有知识图谱、情感计算、机器翻译的领域会议,也举办了不少汉语方面的评测。而这些评测无不受到SIGHAN的影响。
当然,过分神话SIGHAN也没有必要。在SIGHAN之前几年,国际上的CoNLL(Conference on Computational Natural Language Learning)、SemEval(lexical and Computational Semantics and Semantic Evaluation) 两大系列评测也已影响颇大。只是SIGHAN的出世让国内真正领略到了这种相对科学的技术评测方法的威力。
我们也没闲着,一方面在国际上组织古代汉语的系列评测EvaHan,希望古汉语的信息处理问题能够得到更多团队的关注和技术攻关。另一方面,组织汉语语义分析的系列评测CAMRP。用SIGHAN的套路,非常管用,确实推进了技术进步。
希望中文的计算评测越做越好!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 20:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社