utf8mb4和 MySQL中的utf8字符集有什么区别? __
utf8mb4
utf8
我已经知道 ASCII , UTF-8 , UTF-16 和 UTF-32 编码;但是我很好奇知道utf8mb4编码组与 MySQL Server中 定义的其他编码类型有什么区别。
使用utf8mb4而不是有什么特别的好处/提议utf8吗?
UTF-8是可变长度编码。对于UTF-8,这意味着存储一个代码点需要1-4个字节。但是,MySQL的编码称为“ utf8”(别名为“ utf8mb3”),每个代码点最多只能存储三个字节。
因此,字符集“ utf8” /“ utf8mb3”不能存储所有Unicode代码点:它仅支持范围0x000到0xFFFF,这被称为“ 基本多语言平面 ”。另请参见Unicode编码比较。
这是MySQL文档必须说的(同一页面的先前版本):
名为utf8 [/ utf8mb3]的字符集每个字符最多使用三个字节,并且仅包含BMP字符。从MySQL 5.5.3开始,utf8mb4字符集每个字符最多使用四个字节,支持补充字符: 对于BMP字符,utf8 [/ utf8mb3]和utf8mb4具有相同的存储特征:相同的代码值,相同的编码,相同的长度。 对于补充字符, utf8 [/ utf8mb3]根本无法存储该字符 ,而utf8mb4需要四个字节来存储它。由于utf8 [/ utf8mb3]根本无法存储字符,因此utf8 [/ utf8mb3]列中没有任何补充字符,并且在从较早版本的utf8 [/ utf8mb3]数据升级时,您无需担心转换字符或丢失数据的麻烦。 MySQL的。
名为utf8 [/ utf8mb3]的字符集每个字符最多使用三个字节,并且仅包含BMP字符。从MySQL 5.5.3开始,utf8mb4字符集每个字符最多使用四个字节,支持补充字符:
对于BMP字符,utf8 [/ utf8mb3]和utf8mb4具有相同的存储特征:相同的代码值,相同的编码,相同的长度。
对于补充字符, utf8 [/ utf8mb3]根本无法存储该字符 ,而utf8mb4需要四个字节来存储它。由于utf8 [/ utf8mb3]根本无法存储字符,因此utf8 [/ utf8mb3]列中没有任何补充字符,并且在从较早版本的utf8 [/ utf8mb3]数据升级时,您无需担心转换字符或丢失数据的麻烦。 MySQL的。
因此,如果您希望您的列支持存储BMP之外的字符(并且通常希望这样做),例如emoji,请使用“ utf8mb4”。另请参阅实际使用中最常见的非BMP Unicode字符是什么?。