随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

我国语料库和计量语言学的早期探索

已有 324 次阅读 2025-12-13 17:50 |个人分类:Computational Linguistics|系统分类:科研笔记

1922年11月,黎锦熙在《国文学会丛刊》创刊号上发表《国语中基本语词的统计研究》一文,经常被认为是语言统计方法用于汉语研究的开始。此文确实是提出了使用科学测验和统计方法,解决汉语教育问题,在理论和方法上提出了重要的研究问题、方向和路径。不过,此文仅有4页,篇幅不大,没有给出具体的统计数据。我们可以把它作为理论文章。

image.png

image.png

著名教育学家陈鹤琴为了教学的目的,从1920年开始,在多位助理的帮助下,对语料统计的基础上,编写了《语体文应用字汇》,1922年发表于《新教育》杂志第5卷第5期987页至995页,含完整字频表的《字汇》于1928年由商务印书馆刊印发行。1922年还遭遇火灾,原始材料被烧毁,幸好一开始的研究成果保留了下来,得以发表。

image.png

image.png

image.png

image.png

注意这段红字,是齐夫定律(1932年发表)的中文陈述。如果陈老用公式写出来,就可以改写学术史了!

然而黎锦熙的故事并没有结束,1919年4月21日国语统一筹备会成立,这是北洋政府和国民政府时期教育部附设的推行国语的机构,设有“汉字省体委员会”、“国语罗马字拼音研究委员会”、“审音委员会”、“国语辞典委员会”和“国语辞典编纂处”等机构。

会长张一麐,副会长袁希涛、吴敬恒,会员中有由教育部指派的黎锦熙、陈懋治、沈颐、李步青、陆基、朱文熊、钱稻孙等,由部辖学校推选的钱玄同、胡适、刘复、周作人、马裕藻等,由会中陆续聘请的赵元任、汪怡、蔡元培、白镇瀛、萧家霖、曾彝进、孙世庆、方毅、沈兼士、黎锦晖、许地山、林语堂、王璞等,先后共172人。

1928年 原国语统一筹备会下的“国语辞典编纂处”改名为“中国大辞典编纂处”,接手原《国音字典》的增订工作,办公地点为中海原总统府(即居仁堂)之“西四所”。

大辞典编纂处组织了一个庞大的系统:设搜集、调查、整理、纂著、统计5部,部下设15个组。最初四年,全部人员从事搜集工作,共剪录书报440种,得卡片250万张(天文数字!)。在当时,这个数量只有英国的《牛津英语大词典》可以相媲美。编纂处还设立了统计部,在我国辞书史上首创以统计字/词出现频率筛选收录的方法

编纂过程中,他们采用统计学原理,使选字排列等更加科学。历经战乱和政府更迭,编纂处的人员始终坚守,完成了《国音常用字汇》(1932年 《国音常用字汇》出版,由钱玄同主编,黎锦熙、白涤洲、萧家霖合编,赵元任、汪怡参订)、《新部首索引国音字典》、《增订注解国音常用字汇》、《国语辞典》4卷本(1947年 《国语辞典》四卷本出版完成,由黎锦熙倡导并作序,以大学课本用词为收词标准。收单字1.5万,复词9万,共10.5万条。)、《增注中华新韵》、《学文化字典》、《同音字典》、《汉语词典》等重要辞书,这些长期以来成为国语标准的工具书。

image.png

(图片来自汪家熔:我国近代第一个词书专业机构——中国大辞典编纂处,出版科学,2008年第2期)



https://blog.sciencenet.cn/blog-39714-1514171.html

上一篇:1920年南高师首开暑期学校|用四通八达的教育来创造一个四通八达的社会
收藏 IP: 222.95.81.*| 热度|

1 张学文

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-14 03:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部