一尘不染

python字符串前的ab前缀是什么意思?

python

在python源代码中,我偶然发现在类似如下的字符串之前有一个小b:

b"abcdef"

我知道u表示unicode字符串的r前缀和原始字符串文字的前缀。

b它看起来像一个没有任何前缀的纯字符串,它代表什么?它在哪种源代码中有用?


阅读 922

收藏
2020-02-20

共2个答案

一尘不染

这是Python3 bytes 文字。在Python 2.5和更早版本中,此前缀不存在(它等效于2.x的纯字符串,而3.x的纯字符串等效u于2.x中带有前缀的文字)。在Python 2.6+中,它等效于纯字符串,以与3.x兼容。

2020-02-20
一尘不染

该b前缀表示一个bytes字符串常量。

如果你看到它在Python 3源代码中使用过,该表达式将创建一个bytes对象,而不是常规Unicode str对象。如果你看到它在Python Shell中回显,或者作为列表,字典或其他容器内容的一部分回显,那么你会看到bytes使用此符号表示的对象。

bytes对象基本上包含一个介于0到255之间的整数序列,但是当表示这些对象时,Python 会将这些字节显示为ASCII码点,以便于读取其内容。外部任何字节可打印的ASCII字符范围被示为转义序列(例如\n,\x82等)。相反,你可以同时使用ASCII字符和转义序列来定义字节值。对于ASCII值,使用其数字值(例如b'A'== b'\x41'

因为bytes对象由整数序列组成,所以你可以使用bytes其他任何整数序列(其值在0-255范围内)构造对象,例如列表:

bytes([72, 101, 108, 108, 111])

和索引给你回的整数(但切片产生一个新bytes值;对于上面的例子中,value[0]给你72,但是value[:1]b'H'作为72是用于大写字母的ASCII码点ħ)。

bytes模拟二进制数据,包括编码文本。如果你的bytes值确实包含文本,则需要先使用正确的编解码器对其进行解码。例如,如果数据编码为UTF-8,则可以使用以下方法获取Unicode str值:

strvalue = bytesvalue.decode('utf-8')

相反,要从str对象中的文本转到bytes需要编码。你需要确定要使用的编码。默认值是使用UTF-8,但是你所需要的很大程度上取决于你的用例:

bytesvalue = strvalue.encode('utf-8')

你也可以使用构造函数bytes(strvalue, encoding)执行相同的操作。

解码和编码方法都使用一个额外的参数来指定应如何处理错误。

Python 2版本2.6和2.7还支持使用b'..'字符串文字语法创建字符串文字,以简化适用于Python 2和3的代码。

bytes对象是不变的,就像str字符串一样。如果你需要一个可变的字节值,请使用一个bytearray()对象。

2020-02-20