我在理解将文本写入文件和将文件写入文件时遇到了大脑故障(Python 2.4)。
# The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) (“ u'Capit \ xe1n'”,“'Capit \ xc3 \ xa1n'”) print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n'
因此,我Capit\xc3\xa1n在文件f2 中输入我最喜欢的编辑器。
Capit\xc3\xa1n
然后:
>>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' >>> open('f1').read().decode('utf8') u'Capit\xe1n\n' >>> open('f2').read().decode('utf8') u'Capit\\xc3\\xa1n\n'
我在这里不明白什么?显然,我缺少一些至关重要的魔术(或理性)。一种类型的文本文件可以正确转换?
在这里,我真正无法理解的是UTF-8表示法的意义所在,如果你实际上无法让Python识别它的话(如果它来自外部)。也许我应该只将JSON转储字符串,然后使用它,因为它具有可表示性!更重要的是,当来自文件时,Python是否会识别并解码该Unicode对象的ASCII表示形式?如果是这样,我怎么得到它?
>>> print simplejson.dumps(ss) '"Capit\u00e1n"' >>> print >> file('f3','w'), simplejson.dumps(ss) >>> simplejson.load(open('f3')) u'Capit\xe1n'
在符号中
u'Capit\xe1n\n'
“ \ xe1”仅代表一个字节。“ \ x”告诉你“ e1”为十六进制。当你写
“ \ xe1”
“ \ x”
“ e1”
到你的文件中,你有“ \ xc3”。这些是4个字节,在你的代码中,你全部读取了它们。显示它们时可以看到以下内容:
“ \ xc3”
>>> open('f2').read() 'Capit\\xc3\\xa1n\n'
你可以看到反斜杠被反斜杠转义了。因此,你的字符串中有四个字节:“ \”,“ x”,“ c”和“ 3”。
“ \”,“ x”,“ c”
“ 3”
编辑:
正如其他人在他们的答案中指出的那样,你只需要在编辑器中输入字符,然后你的编辑器就应处理到UTF-8的转换并保存。
如果你实际上有这种格式的字符串,则可以使用string_escape编解码器将其解码为普通字符串:
In [15]: print 'Capit\\xc3\\xa1n\n'.decode('string_escape') Capitán
结果是一个以UTF-8编码的字符串,其中重音字符由\\xc3\\xa1原始字符串中写入的两个字节表示。如果要使用unicode字符串,则必须使用UTF-8再次解码。
\\xc3\\xa1
编辑:文件中没有UTF-8。实际查看其外观:
s = u'Capit\xe1n\n' sutf8 = s.encode('UTF-8') open('utf-8.out', 'w').write(sutf8)
将文件utf-8.out内容与使用编辑器保存的文件内容进行比较。
我发现打开文件时更容易指定编码,而不是搞乱编码和解码方法。该io模块(Python 2.6中添加)提供了一个io.open函数,该函数具有一个编码参数。
io
io.open
使用io模块中的open方法。
open
>>>import io >>>f = io.open("test", mode="r", encoding="utf-8")
然后,在调用f的read()函数之后,返回一个编码的Unicode对象。
read()
Unicode
>>>f.read() u'Capit\xe1l\n\n'
请注意,在Python 3中,该io.open函数是内置函数的别名open。内置的open函数仅在Python 3中支持encoding参数,而在Python 2中不支持。
编辑:以前此答案推荐编解码器模块。该混合编解码器时,模块可能会造成问题read()和readline(),所以这个答案现在建议的IO模块来代替。
使用编解码器模块中的open方法。
>>>import codecs >>>f = codecs.open("test", "r", "utf-8")
f
如果你知道文件的编码,那么使用编解码器包将减少混乱。