GB18030,国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是中国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是中国计算机系统必须遵循的基础性标准之一。本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。目前,GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。
版本区别
GB18030最新版本是GB18030-2005。GB18030-2005与GB18030-2000的编码体系结构是完全相同的。那么,GB18030的2000版和2005版有什么区别和联系呢?
2000年发布的GB18030-2000,全名是《信息技术汉字编码字符集基本集的扩充》。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。
GB18030-2000是全文强制性标准,市场上销售的产品必须符合。2005年发布的GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种中国少数民族文字的编码,增加的这些内容是推荐性的。原GB18030-2000中的内容是强制性的,市场上销售的产品必须符合。故GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。GB18030-2005的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即0x8139EE39—0x82358738)部分为强制性。
总体结构
标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。双字节部分,首字节码位从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。码位总体结构见右图。
字汇
18030到2000字汇
GB18030-2000的字汇部分是这样写的:
本标准收录的字符分别以单字节、双字节和四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB11383的0x00到0x7F全部128个字符及单字节编码的欧元符号。
2、双字节部分
本标准中,双字节的部分收录内容如下:
GB13000.1的全部CJK统一汉字字符。
GB13000.1的CJK兼容区挑选出来的21个汉字。
GB13000.1中收录而GB2312未收录的中国台湾地区使用的图形字符139个。
GB13000.1收录的其它字符31个。
GB2312中的非汉字符号。
GB12345的竖排标点符号19个。
GB2312未收录的10个小写罗马数字。
GB2312未收录的带音调的汉语拼音字母5个以及ɑ和ɡ。
汉字数字“〇”。
表意文字描述符13个。
增补汉字和部首/构件80个。
双字节编码的欧元符号。
3、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB13000.1中的全部字符。
18030到2005字汇
GB18030-2005的字汇部分是这样写的:本标准收录的字符分别以单字节、双字节或四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB/T11383-1989的0x00到0x7F全部128个字符。
2、双字节部分
本标准中,双字节的部分收录内容如下:
GB13000.1-1993的全部CJK统一汉字字符。
GB13000.1-1993的CJK兼容区挑选出来的21个汉字。
GB13000.1-1993中收录而GB2312未收录的中国台湾地区使用的图形字符139个。
GB13000.1-1993收录的其它字符31个。
GB2312中的非汉字符号。
GB12345的竖排标点符号19个。
GB2312未收录的10个小写罗马数字。
GB2312未收录的带音调的汉语拼音字母5个以及ɑ和ɡ。
汉字数字“〇”。
表意文字描述符13个。
对GB13000.1-1993增补的汉字和部首/构件80个。
双字节编码的欧元符号。
3、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,GB13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的中国少数民族文字的字符。
GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编码的欧元符号0x80)。
GB18030有1611668个码位,在GB18030-2005中定义了76556个字符。随着中国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC10646的不断发展,GB18030所收录的字符将在新版本中增加。
标准历程
1980年中国颁布了第一个汉字编码字符集标准,即GB2312-80《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号,奠定了中文信息处理的基础。
随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年国际标准化组织发布了ISO/IEC10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。中国等同采用此标准制定了GB13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,目前还不能完全解决中国当前应用的迫切需要。
考虑到GB13000的完全实现有待时日,以及GB2312编码体系的延续性和现有资源和系统的有效利用与过渡,我们选择了在GB2312(GB2311)的基础上进行扩充,并且在字汇上与GB13000.1兼容的方案,研制一个新的标准——汉字编码基本集的扩充,进而完善GB2312,以满足中国邮政、户政、金融、地理信息系统等应用的迫切需要。
此项目业已列入1998年国家标准制定计划。1998年10月,由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软件所、长城软件公司、中软总公司、金山软件公司和联想公司的技术人员组成标准起草组。
在标准研制过程中,中国信息技术标准化技术委员会多次召集标准起草组和知名公司对标准草案进行充分地研究论证,并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加,广泛征求意见。标准起草组经过反复斟酌和验证,提出了标准制定原则——与GB2312信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持GB13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。
信息产业部和原国家质量技术监督局于2000年3月17日联合发布了该标准,即GB18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》。该标准作为国家强制性标准自发布之日起实施,过渡期到2001年8月31日止。
期间,中国信标委曾制定和发布《汉字扩展规范GBK1.0》,并在MSWindows9x/Me/NT/2000、IBMOS/2的系统中广泛应用。GB18030是国家标准,在技术上是GBK的超集,并与其兼容,因此,GBK将结束其历史使命。
该文章由作者:【东光太郎】发布,本站仅提供存储、如有版权、错误、违法等相关信息请联系,本站会在1个工作日内进行整改,谢谢!