随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

构建众包词典平台——第十二届全国汉语词汇学参会观感

已有 2966 次阅读 2018-11-20 21:51 |个人分类:Linguistics|系统分类:科研笔记

    感谢微信朋友圈,让我有机会第一次参加全国汉语词汇学研讨会,见到了诸位先贤大牛的真容。詹伯慧、周荐等教授都是第一次见到。硕士时就读到大牛们的论著,很是钦佩,现在听了现场版的报告,很是满足。和往届相似,这次会议的主题仍是词典编纂、词汇研究与应用。由于会议是分了4个并行的session,我一次只能听一个,只就我听到的部分做一个简要总结。

    词典编纂方面,商务印书馆的周洪波先生现场做了语言问卷调查,以进一步确认改革开放四十年的四十个代表词。这个工作我们5年前也做过,自动从人民日报语料中提取每个时代的代表词。拿到词表立即核对了一下,发现大体上较为相似。八十多岁高龄的詹伯慧教授则介绍了《汉语方言学大词典》的编纂背景和进展情况,500多万字的大书,希望借助数据库技术来加速词典的编纂。田小琳教授介绍了《现代汉语学习词典》在两岸三地的词语收录、释义实用、错误点提示等方面的特色,很具启发。商务的汪惠民老师介绍了《近现代汉语辞源》 与外来语词典编纂的进展情况,语料库的字符串检索在其中都起到了比较大的作用。但是单纯的生语料是不太容易直接作为检索对象的,我们的古汉语分词与词性标注技术应该可以更好地服务于这个任务。而义项的多样性,则更适合采用我的同门唐旭日老师(华中科技大学)正在攻关的collo-construction技术来获取历时的词义演变。商务的余桂林老师,则报告了期待研制《现代汉语常用词分级词表》一文。这一呼吁得到了与会代表的强烈共鸣。汉字已经做了音、形、序、级的界定,但词语方面还有很大欠缺。在语言教学方面也有较大的需求,做起来是学术界和语文界的好事。此事想想也不是特别难,常用的3000-5000词,为什么就不能好好地归纳总结下呢?作为对比,苏新春教授在《义务教育常用词表( 草案)》 词表规模的理据与处理方法的报告中,统计了四套代表性教材的常用词数量,除去专名,大概在1万词左右。苏老师的这个词表,对于编制常用词词典来说,太重要了。

    在词汇研究方面,许多老师做了词源考证,给大家展示了词义演变、词形变化的历史,非常有趣。在理论上,用传统的小学考据法、构式语法、认知语法,都有深入分析。特别是首都师大的李瑞老师讲到的词义与句法演变的互动共变,利用“准”一个词的历时演变,将词义和语法的关系剖析得非常精彩。其坚持词语的本义是其他意义的基础,或者说一个词就一个义项的观点,与我也非常相近,值得进一步加强这方面的研究。

    至于我自己,则借15分钟的时间,介绍了利用大数据方法进行词汇知识构建的观点与方法,将认知属性库的制作过程与计量分析、计算应用做了可视化展示。还介绍了我们对《汉语大词典》年代信息的标注和大词表回归分析得到的年代曲线。与各位学者、学生探讨了构建在线众包词典的可能性。

    是的,我们需要这样一部词典。词典的释义不能太复杂,要让孩子和留学生能看懂、用得方便。一个收词不多,以常用3000-5000为主,但释义简单、图文并茂、融合多媒体技术,字大、精美、好拿、好带、好翻的趁手的小词典,该多么好啊。然而词语的释义是一件看似简单,却又复杂的大事,需要词汇研究者和语文教学者群策群力来完成的,一起选词、一起释义,分工、众包。这也许是当前基础而重要的一件事啦。




https://blog.sciencenet.cn/blog-39714-1147318.html

上一篇:计算语言学与数字人文
下一篇:计算语言学考研问答
收藏 IP: 223.65.8.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 14:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部