概述
目录
1. ASCII码
2. Unicode
3. GBK编码
1. ASCII码
ASCII码使用一个字节编码,但只适用于英文;
2. Unicode
Unicode定义了字符集,有 17 个 code plane,总共规划了 1,114,112 个 code point。而这些字符可以使用UTF-8、UTF-16或者UTF-32等编码方式进行编码,不同的编码方式所占的字节数不一样。
UTF-8是99%的网站使用的编码,占1~4个字节,具体的表现形式为:
0xxxxxxx:单字节编码形式,这和 ASCII 编码完全一样,因此 UTF-8 是兼容 ASCII 的;
110xxxxx 10xxxxxx:双字节编码形式;
1110xxxx 10xxxxxx 10xxxxxx:三字节编码形式,大部分中文使用三字节编码。
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字节编码形式,极少部分罕见中文使用四字节编码。
UTF-8编码示例如下:
UTF-16占2或4个字节,是唯一不兼容ASCII码的编码;
UTF-32占4个字节。
3. GBK编码
GBK是特地为中文设计的编码方式,不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。其在国际上不具备通用性。具体形式如下
可以看到“中”字的编码为0xD6D0。
参考:
unicode编码中一个汉字占几个字节? - 知乎
unicode编码中一个汉字占几个字节? - 知乎
utf-8与GBK的区别 - 简书 (jianshu.com)
Unicode字符需要几个字节来存储?_二十六画生的博客的博客-CSDN博客_unicode 几个字节
最后
以上就是温柔绿茶为你收集整理的不同字符编码对比的全部内容,希望文章能够帮你解决不同字符编码对比所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复