我是靠谱客的博主 默默果汁,最近开发中收集的这篇文章主要介绍汉字转换为二进制的原理,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

两个字节转成一个汉字

1.汉字信息交换码(国标码)
  《信息交换用汉字 编码字符集·基本集》是我国于1980年制定的国家标准 GB2312-80,代号为国标码,是国家规定的用于汉字信息处理使用的代码依据.
   GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括几种外文字母、数字和符号)的代码.
  6763个汉字又按其 使用频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008.
  一级汉字按拼音字母顺序排列;若遇同音字,则 按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依次类推.所谓笔形顺序,就是横、竖、撇、点和折的顺序.二级汉字按 部首顺序排列.
 
  在此标准中,每个汉字(图形符号)采用双字节表示.每个字节只用低7,最高位恒为1.由于低7位中有34种状态是用 于控制字符,因此,只有94(128-34=94)种状态可用于汉字编码.这样,双字节的低7位只能表示94×94=8836种状态.


编码范围
二进制数码
十进制数码
基本 ASCII 码    
0000000001111111    
0127    
控制字符    
000000000010000001111111    
032127    
可用汉字段    
0010000101111110    
33126 (194)    
扩充 ASCII 码    
1000000011111111    
128255    
控制字符    
100000001010000011111111    
128160255    
GB2312-80    
1010000111111110    
161254 (194)    
  此标准的汉字编码表有94行、94,其行号称为区号,列号称为位号.双字节中,用 高字节表示区号,低字节表示位号.非汉字图形符号置于第111,一级汉字3755个且于第1655,二级汉字3008个置于第5687.
  每个图形字符的汉字交换码,均用两个字节的低7位二进制码表示.汉字国标码通常用十六进制数表示.
  例如:“中”字的区号为 54,位号为48,计算它的二进制数和十六进制数国标码.

最后

以上就是默默果汁为你收集整理的汉字转换为二进制的原理的全部内容,希望文章能够帮你解决汉字转换为二进制的原理所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(36)

评论列表共有 0 条评论

立即
投稿
返回
顶部