我正在尝试从网站下载PDF文件并将其保存到磁盘。我的尝试因编码错误而失败,或者导致PDF空白。
In [1]: import requests In [2]: url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf' In [3]: response = requests.get(url) In [4]: with open('/tmp/metadata.pdf', 'wb') as f: ...: f.write(response.text) --------------------------------------------------------------------------- UnicodeEncodeError Traceback (most recent call last) <ipython-input-4-4be915a4f032> in <module>() 1 with open('/tmp/metadata.pdf', 'wb') as f: ----> 2 f.write(response.text) 3 UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-14: ordinal not in range(128) In [5]: import codecs In [6]: with codecs.open('/tmp/metadata.pdf', 'wb', encoding='utf8') as f: ...: f.write(response.text) ...:
我知道这是某种编解码器问题,但我似乎无法使其正常工作。
response.content在这种情况下,您应该使用:
response.content
with open('/tmp/metadata.pdf', 'wb') as f: f.write(response.content)
从文件:
对于非文本请求,您还可以字节形式访问响应主体: >>> r.content b'[{"repository":{"open_issues":0,"url":"https://github.com/...
对于非文本请求,您还可以字节形式访问响应主体:
>>> r.content b'[{"repository":{"open_issues":0,"url":"https://github.com/...
因此,这意味着:response.text将输出作为字符串对象返回,在下载 文本文件 时使用它。如HTML文件等
response.text
并response.content以字节对象返回输出,在下载 二进制文件 时使用它。如PDF文件,音频文件,图像等。
您还可以使用response.raw代替。但是,当您要下载的文件很大时,请使用它。以下是一个基本示例,您也可以在文档中找到该示例:
response.raw
import requests url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf' r = requests.get(url, stream=True) with open('/tmp/metadata.pdf', 'wb') as fd: for chunk in r.iter_content(chunk_size): fd.write(chunk)
chunk_size是您要使用的块大小。如果将其设置为2000,则请求将下载该文件的第一个2000字节,将其写入文件,然后一次又一次地执行,除非完成。
chunk_size
2000
这样可以节省您的RAM。但是response.content在这种情况下,我宁愿使用它,因为您的文件很小。如您所见,使用response.raw非常复杂。
关联:
如何使用requests.py在python中下载大文件?
如何使用请求下载图像