Python-Unicode（UTF-8）用Python读写文件

一尘不染

Python-Unicode（UTF-8）用Python读写文件

python

我在理解将文本写入文件和将文件写入文件时遇到了大脑故障（Python 2.4）。

# The string, which has an a-acute in it.
ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
repr(ss), repr(ss8)
（“ u'Capit \ xe1n'”，“'Capit \ xc3 \ xa1n'”）

print ss, ss8
print >> open('f1','w'), ss8

>>> file('f1').read()
'Capit\xc3\xa1n\n'

因此，我Capit\xc3\xa1n在文件f2 中输入我最喜欢的编辑器。

然后：

>>> open('f1').read()
'Capit\xc3\xa1n\n'
>>> open('f2').read()
'Capit\\xc3\\xa1n\n'
>>> open('f1').read().decode('utf8')
u'Capit\xe1n\n'
>>> open('f2').read().decode('utf8')
u'Capit\\xc3\\xa1n\n'

我在这里不明白什么？显然，我缺少一些至关重要的魔术（或理性）。一种类型的文本文件可以正确转换？

在这里，我真正无法理解的是UTF-8表示法的意义所在，如果你实际上无法让Python识别它的话（如果它来自外部）。也许我应该只将JSON转储字符串，然后使用它，因为它具有可表示性！更重要的是，当来自文件时，Python是否会识别并解码该Unicode对象的ASCII表示形式？如果是这样，我怎么得到它？

>>> print simplejson.dumps(ss)
'"Capit\u00e1n"'
>>> print >> file('f3','w'), simplejson.dumps(ss)
>>> simplejson.load(open('f3'))
u'Capit\xe1n'

阅读 771

2020-02-21

一尘不染

在符号中

u'Capit\xe1n\n'

“ \ xe1”仅代表一个字节。“ \ x”告诉你“ e1”为十六进制。当你写

Capit\xc3\xa1n

到你的文件中，你有“ \ xc3”。这些是4个字节，在你的代码中，你全部读取了它们。显示它们时可以看到以下内容：

>>> open('f2').read()
'Capit\\xc3\\xa1n\n'

你可以看到反斜杠被反斜杠转义了。因此，你的字符串中有四个字节：“ \”，“ x”，“ c”和“ 3”。

编辑：

正如其他人在他们的答案中指出的那样，你只需要在编辑器中输入字符，然后你的编辑器就应处理到UTF-8的转换并保存。

如果你实际上有这种格式的字符串，则可以使用string_escape编解码器将其解码为普通字符串：

In [15]: print 'Capit\\xc3\\xa1n\n'.decode('string_escape')
Capitán

结果是一个以UTF-8编码的字符串，其中重音字符由\\xc3\\xa1原始字符串中写入的两个字节表示。如果要使用unicode字符串，则必须使用UTF-8再次解码。

编辑：文件中没有UTF-8。实际查看其外观：

s = u'Capit\xe1n\n'
sutf8 = s.encode('UTF-8')
open('utf-8.out', 'w').write(sutf8)

将文件utf-8.out内容与使用编辑器保存的文件内容进行比较。

2020-02-21

一尘不染

我发现打开文件时更容易指定编码，而不是搞乱编码和解码方法。该io模块（Python 2.6中添加）提供了一个io.open函数，该函数具有一个编码参数。

使用io模块中的open方法。

>>>import io
>>>f = io.open("test", mode="r", encoding="utf-8")

然后，在调用f的read（）函数之后，返回一个编码的Unicode对象。

>>>f.read()
u'Capit\xe1l\n\n'

请注意，在Python 3中，该io.open函数是内置函数的别名open。内置的open函数仅在Python 3中支持encoding参数，而在Python 2中不支持。

编辑：以前此答案推荐编解码器模块。该混合编解码器时，模块可能会造成问题read()和readline()，所以这个答案现在建议的IO模块来代替。

使用编解码器模块中的open方法。

>>>import codecs
>>>f = codecs.open("test", "r", "utf-8")

然后，在调用f的read（）函数之后，返回一个编码的Unicode对象。

>>>f.read()
u'Capit\xe1l\n\n'

如果你知道文件的编码，那么使用编解码器包将减少混乱。

2020-02-21

Python-Unicode（UTF-8）用Python读写文件

共2个答案