编码

a字符编码为1100001,对应十进制为97,则b的编码值为98.

A 字符编码为1000001,对应十进制为65,则B的编码值为66.

0数字字符编码为0110000,对应十进制为48,则1的编码值为49.

注意:计算机内部用一个字节存放一个7位ASCII码,最高位置0.

Unicode 编码

最初由APPLE 公司发起制定的通用多文字集,后被
Unicode 协会开
发为表示几乎世界上所有书写语言的字符编码标准。
有多种代表形式:
UTF-8
UTF-16
UTF-32

中文字符

1980年我国颁布了国家汉字编码标准
GB2312-80全称是《信息交换用汉字编码字符集》简称国标码把常用6763个汉字分成两级,一级汉字3755个,二级汉字3008个。用两个字节表示一个汉字,每个字节只有7位,与ASCII码相似。
国标码:由4位16进制数组成
区位码:将GB2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”,编号为01~94;每一列称为一
个“位”,编号为01~94,这样得到GB2312-80的区
位图,用区位图的位置来表示的汉字编码,称为区位码。

由4位10进制数组成,前两位为区号,后两位为位号。两者之间的关系:国标码=区位码(转换为16进制)+2020H。GBK编码—扩充汉字编码共收录21003个汉字,也包含BIG5(港澳台)编码中的所有汉字。

汉字的处理过程

汉字输入→输入码→国标码→机内码→地址码→字形码→汉字输出

输入码:利用计算机标准键盘上按键不同排列组合来对汉字的输入进行编码。(也叫外码)

机内码:在计算机内部对汉字进行存储、处理的汉字编码。一个汉字内码用2个字节存储。机内码=国标码+8080H

地址码:指汉字库中存储汉字字形信息的逻辑地址码

字形码:用于在显示屏或打印机输出。也叫汉字字模。汉字字形码
有两种表示方式:点阵和矢量

用点阵表示字形时:
汉字字形码就是把汉字按图形符号设计成点阵图简易型汉字为16*16点阵
普通型汉字为24*24点阵
提高型汉字为3232,4848点阵

用点阵表示字形时:可计算出存储一个汉字站用字节空间
例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制代码(即2个字节),共16行,所以需要16行×2字节/行=32字节,即16×16点阵表示一个汉字,字形码需用32字节。
即:字节数=点阵行数×(点阵列数/8)