dingsir的个人博客分享 http://blog.sciencenet.cn/u/dingsir

博文

Unicode 标准与GB18030-2022标准 絮语

已有 583 次阅读 2024-9-17 15:20 |个人分类:软件杂谈|系统分类:论文交流

Unicode 标准与GB18030-2022标准 絮语

简介

Unicode标准组织于2024-9-10发布了最新一版16.0版的Unicode标准。较上一版本,汉字没有增加,只增加了两个新的笔划,就不多介绍了。有兴趣的可以到https://www.unicode.org/Public/UCD/latest/charts/ 下载查看。

新增加的笔画.png

GB18030标准,是我国关于汉字和少数民族字符(蒙古文(包括传统蒙古文、满文、锡伯文、托忒文、阿礼嘎礼字)、藏文、维哈柯文(包括维吾尔文、哈萨克文、柯尔克孜文)、朝鲜文、规范彝文、滇东北苗文、傈僳文、西双版纳新傣文、西双版纳老傣文、德宏傣文)在IT系统中编码的强制标准,主要但根据行业应用的不同可以划分为三类不同的实施要求。涉及户政/公安的要求最高的实施级别。

GB18030之前发布过2000版,2005版,但总体来讲2000版并不成功,那个时间Unicode标准开始兴起,虽然有一点18030的输入法与字库,但总体上遵守的不多,没有形成大的气候。我记得当时还有一篇很长的文章分析了18030-2000版标准中的诸多不足之处。总之,还是GB2312-89和GBK标准的支持得比较充分。

18030实施的三个不同要求.png

2022年发布的这个标准GB18030-2022,收录了Unicode标准中CJK扩展A到扩展F(对应Unicode 12.0)的所有汉字,因此在这些标准中出现的汉字,几乎都可以在18030-2022标准中找到。总共收录了89106个字符(其中汉字+部首88115个),可以说是相当强大

两个罕用字 biang 与 nia,以及标准的修订单

由于Unicode收集的是全球的各种文字,其范围大于汉字,Unicode 13.0~16.0版本的新增汉字,GB 18030-2022还没有收入。例如,之前我在博客中讨论过的biang字(Unicode编码 0x30EDD简体 及 0x30EDE繁体),正好是Unicode 13.0中新增的CJK 扩展G中的汉字,未被GB18030-2022中收录。

Biang字.png

不过GB18030标准编制组正在进行标准修订单的编制,准备增加更多的汉字。根据第1次修订单的第3次征求意见稿的资料看,GB18030-2022 会   a)增加了经过查证的622个公安人口信息专用字库补充汉字(CJK扩展I)和9,171个已经收入ISO/IEC 10646: 2020《信息技术通用编码字符集》及其补篇但尚未收入GB 18030-2022的CJK统一汉字(CJK扩展G和H),总计9,793个汉字。b)增加了国际标准已收录的36个CJK笔画和5个表意文字描述符。c)增加了第9章中对实现级别1和实现级别3的补充说明。 d)规定新增汉字的实施日期。等等。

Biang字也会在GB18030-2022的第1修订单中得到增补

GB18030-2022第1修改单第3次征求意见中的Biang.png

从目前收入的字来看,GB18030-2022是收字最多的一个强制标准,在大多数场景来看已经足够使用了。

2023年报道过的一个罕用姓nia,上面是鸟字少一横,下面是甲字。这个字目前在GB18030-2022标准中已经有了,GB18030标准的码值是9834C337(Unicode 码值2A00B)。当然,由于是罕用字,偏旁还是繁体的鸟字。(我顺便把相似的字也标了一下,可以看到码值9834C232的字符与它也很相似),似乎不太精准。

那如果要更精准匹配这个字呢?有时我想,为什么不把这些古汉字的偏旁简化成简体的偏旁呢?后来我想明白了,如果真这么操作的话,必然会生成一批绝大多数没有在文字资料中使用过的新造字。这样的坏处就是,会在标准中增加数万个差别不大用得不多的新汉字,把标准搞得很臃肿,也不符合标准收字的原则。

nia字在GB18030-2022中.png

OK,我们再看一眼Unicode 16.0中收录的情况,这里与它字形相似的字更多一些。

nia字的相似形式.png

关于康熙字典的部首

顺便说一下,Unicode标准中,CJK(中日韩)统一汉字是按康熙字典的笔画来排序的, 因此有些偏旁的样式和笔画与我们现在用的可能有所不同。典型的就是走字底,现在简体字来讲,它是三划的⻌,《康熙字典》中却是7划的辵,还包括,都算同一个偏旁。 同理,比如BiangBiang面的Biang字,如果你查辶,按笔画你根本就找不到这个偏旁。(熟悉一下康熙字典的偏旁对快速查找Unicode标准以及GB18030标准都是有益的)。

走字底.png

GB/T 13000 与GB 18030的编码关系

GB18030的标准中,大量提到GB/T 13000标准,它是中国等同采用的ISO组织的 ISO/IEC 10646标准,ISO/IEC 10646标准的编码又与Unicode标准是保持一致的(Unicode标准的实施要求等有些内容未纳入ISO标准)。因此,虽然GB18030中字符下面标识的是GB13000标准的编码,实际就是Unicode标准的编码。

GB18030-2022的不足

最后说一点GB18030-2022标准中的美中不足之处,三级实施的字符范围不一样。因此汉字排了三批次顺序,字的排列顺序上有点乱,最前面的是按拼音顺序排,后面是按偏旁顺序+笔画来排,后面的偏旁又是参考Unicode标准的康熙部首顺序,汉字太多,查起来比较不方便---除了常用字外,罕用字往往不知道在哪一块,字又太多,PDF文件的汉字编码页面用的又是图像,没有文本检索功能。

建议标准编制组制作一份部首检字表,类似Unicode标准中的RSIndex.pdf那样,把所有汉字与其编码统一到一个文件中,并用支持文本检索,最好还能标识其实施级别、页码,这样使用就会便利得多。

参考资料:

(以下资料均可以在网上搜索下载到)

1。GB18030-2022 国标

2。国家标准 GB 18030-2022《信息技术 中文编码字符集》理解与使用

3。Unicode 16.0 字符集(Codechart) 与汉字部首索引(RSIndex)

4。GB 18030—2022《信息技术 中文编码字符集》国家标准第1号修改单(第三次征求意见稿) 



https://blog.sciencenet.cn/blog-1213210-1451480.html

上一篇:超强酸 学习笔记(1) 翻译1979年奥拉等发表的的一篇文章。
收藏 IP: 49.79.23.*| 热度|

2 郑永军 guest02332209

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 06:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部