1.7其他信息的编码举例
计算机能处理的字符信息显然不只局限于上述ASCⅡ码(128种常用字符),计算机能识别如此众多的汉字,就是因为它们有各自的编码。下面简单介绍汉字的编码。
由于汉字的数量多(常用汉字就有几千个),它的编码相对要复杂些,编码后的二进制位数也较多。汉字的编码有机内码和机外码两类。机内码是汉字的标识码,机外码则用于汉字的输入,以满足不同的需要。下面分别介绍汉字的国标码、机内码和机外码。
(1)国标码:为了在信息交换中有个通用标准,我国在1981年公布了国家标准GB2312一1980《信息交换用汉字编码字符基本集》,简称国标码。在这一标准中,每个汉字用两个字节(各使用7位二进制)表示,第一个字节表明字符位于哪一区,第二个字节表明该字符在本区内的哪一位。基本字符集共有94区,每区有94位。另外,该标准又按使用频率,把常用汉字分为一级汉字(3755个)和二级汉字(3008个)。一级汉字按拼音顺序排列,占据16~55区;二级汉字按部首顺序排列,占据56~87区。1~15区用来编排西文字母、数字和图形符号,以及用户自行定义的专用符号。
(2)机内码:机内码是计算机系统内部用来表示汉字的编码。计算机系统所采用的机内码以GB2312一1980码为基础。为使该码与ASCI码有所区别,将汉字国标码每个字节的最高位置1,作为该汉字的机内码。例如,“阿”字的国标码是3022H,其机内码为0B0A2H。
(3)机外码:目前常用的机外码主要有区位码、国标码、首尾码、拼音码和五笔字型等。