敲黑板
在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。
CHAR
一种数据类型,代表一个字节,在内存中有8位。
ANSI
美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码。
ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码。
注意 英文占 1 个字节,汉字 2 个字节,以一个\0结尾。
Unicode
这是一种所有符号的编码,可以容纳100多万个符号。
注意以Unicode16为例 每个字符(汉字、英文字母)都占 2 个字节,以 2 个连续的\0结尾。
UTF-8
UTF-8是互联网上使用最广的一种unicode的实现方式。
注意 英文占 1 个字节,汉字占 3 个字节。
转换
Unicode16转ANSI
ANSI转Unicode16
Unicode16转UTF-8
UTF-8转Unicode16
more >>