PCYO 评测夜鸥 六度计算世界

少年强 则 中国强

汉字编码规则说明和解释(含:ASCII,GB2312,GBK,GB18030,Unicode{UTF-8,UTF16,UTF32})

一个中文究竟几个字节?
编码不同,都包含多少字?

编码面积

  • ASCII: 英文+数字+标点(128个)
  • GB2312: 6763个汉字,715个符号(拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母);
  • GBK:21003汉字(简体,繁体字),883个符号
  • GB18030:70217个汉字,剩余是:少数民族文字+CJK中日韩
  • BIG5:台湾编码
  • Unicode:包含全世界文字的编码
  • UTF-8,UTF-16,UTF-32 是存储方式和读取方式(传输方式)

codedecode.png

编码范围:

  • GB2312:编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE
  • GBK:8140-FEFE,汉字编码范围:B0A1-F7FE,8140-A0FE,AA40-FEA0
  • GB18030:4E00-9FA5,3400-4DBF,汉字编码范围\x81 - \xFE, \x40 - \xFE(不包括0x7F)
  • Unicode:0000-FFFF,汉字编码范围:4E00 - 9FA5

存储长度(方式):

  1. 占1个字节的编码是ISO-8859-1
  2. 占2个字节的编码是GB2312、GBK、GB18030、UTF-16BE、UTF-16LE
  3. 占3个字节的编码是UTF-8
  4. 占4个字节的编码是UTF-16
    备注 : unicode系列(1-4字节):英文及标点1个字节,中文最少2个字节,常用的是GBK和UTF-8
本原创文章未经允许不得转载 | 当前页面:PCYO 评测夜鸥 六度计算世界 » 汉字编码规则说明和解释(含:ASCII,GB2312,GBK,GB18030,Unicode{UTF-8,UTF16,UTF32})

评论