nqed的个人博客分享 http://blog.sciencenet.cn/u/nqed

博文

关于汉字

已有 3836 次阅读 2018-5-6 20:00 |系统分类:博客资讯

 关于汉字


1  汉字有多少?

《康熙字典》原版共收录汉字四万七千零三十五个(47035个),为汉字研究的主要参考文献之一。

     2008年4月,社会科学文献出版社完成《康熙字典》300年来的第二次修订,《康熙字典》修订版共收录汉字57557,比《汉语大字典》多收录约3000字。

     《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312-1980,共收入汉字6763个。其中一级汉字3755个,二级汉字3008个。GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

     对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

     国家标准GB18030-2005《信息技术 中文编码字符集》是我国继GB2312-1980和GB13000.1-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。 GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。GB18030-2000收录了27533个汉字,GB18030-2005收录了70244个汉字。


2  我能准确读出来的有多少字?不超过5000.

    因为编过一个汉字输入程序,考察过GB2312. 伤心的是,我认识的汉字最多只有5000. 高兴的是,从那以后再也不操心记英语单词。中文字还有那么多不认识的,英文单词不认识很正常!

    例如,下面是GB2312的二级汉字中的三个区,3x94个字:

code  +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
E0A0     唷 啖 啵 啶 啷 唳 唰 啜 喋 嗒 喃 喱 喹 喈 喁
E0B0  喟 啾 嗖 喑 啻 嗟 喽 喾 喔 喙 嗪 嗷 嗉 嘟 嗑 嗫
E0C0  嗬 嗔 嗦 嗝 嗄 嗯 嗥 嗲 嗳 嗌 嗍 嗨 嗵 嗤 辔 嘞
E0D0  嘈 嘌 嘁 嘤 嘣 嗾 嘀 嘧 嘭 噘 嘹 噗 嘬 噍 噢 噙
E0E0  噜 噌 噔 嚆 噤 噱 噫 噻 噼 嚅 嚓 嚯 囔 囗 囝 囡
E0F0  囵 囫 囹 囿 圄 圊 圉 圜 帏 帙 帔 帑 帱 帻 帼   

code  +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
E1A0     帷 幄 幔 幛 幞 幡 岌 屺 岍 岐 岖 岈 岘 岙 岑
E1B0  岚 岜 岵 岢 岽 岬 岫 岱 岣 峁 岷 峄 峒 峤 峋 峥
E1C0  崂 崃 崧 崦 崮 崤 崞 崆 崛 嵘 崾 崴 崽 嵬 嵛 嵯
E1D0  嵝 嵫 嵋 嵊 嵩 嵴 嶂 嶙 嶝 豳 嶷 巅 彳 彷 徂 徇
E1E0  徉 後 徕 徙 徜 徨 徭 徵 徼 衢 彡 犭 犰 犴 犷 犸
E1F0  狃 狁 狎 狍 狒 狨 狯 狩 狲 狴 狷 猁 狳 猃 狺   

code  +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F
E2A0     狻 猗 猓 猡 猊 猞 猝 猕 猢 猹 猥 猬 猸 猱 獐
E2B0  獍 獗 獠 獬 獯 獾 舛 夥 飧 夤 夂 饣 饧 饨 饩 饪
E2C0  饫 饬 饴 饷 饽 馀 馄 馇 馊 馍 馐 馑 馓 馔 馕 庀
E2D0  庑 庋 庖 庥 庠 庹 庵 庾 庳 赓 廒 廑 廛 廨 廪 膺
E2E0  忄 忉 忖 忏 怃 忮 怄 忡 忤 忾 怅 怆 忪 忭 忸 怙
E2F0  怵 怦 怛 怏 怍 怩 怫 怊 怿 怡 恸 恹 恻 恺 恂

  我的感想是两句词:“无可奈何花落去,似曾相识燕归来”。至少有一半是“我不认得它,它认得我”。

3  汉字的读音,是时空的函数:

    最近出现的两个网红汉字,鹄和莘就是如此。

    在“鸿鹄”中,鹄读作Hu. 但是有人考证,古代就是 HongHao,见“说文解字”。 而在“ 鹄的”中,读作Gu。此外,根据“新华字典在线查询”   ,它还有一个读音是 He。

    “莘”也有两个读音,shen 和 xin。在“莘莘学子”中应该读“shen shen”,作姓氏用时也读“shen”。但是作地名时,如上海的“莘庄”里,就读作xin。它也是中药细辛的古名,也读作xin。

    我年轻的时候,铊读作tuo,氙读作shan,赝读作ying。2000年讲课,我说“鹰”向量,学生就在下面笑,我始终不明就里。

  “叶公好龙”里的“叶”,本来是“葉公好龙”。在“葉公”生活的时代,是读作“she gong 好龙”的。那么,究竟什么才是“叶公好龙”的正确读法?


也许,中兴可以开发一种芯片:植入人脑后,可以准确读出那70244个汉字?



https://blog.sciencenet.cn/blog-583426-1112641.html

上一篇:买办洋奴的谣言一例
下一篇:马克思炒股的故事
收藏 IP: 222.130.129.*| 热度|

10 朱晓刚 徐令予 张学文 杨正瓴 尤明庆 蔡宁 蒋永华 柏舟 张忆文 yangb919

该博文允许注册用户评论 请点击登录 评论 (22 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 00:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部