如何在Python 3.1中对字符串中的HTML实体进行转义？

一尘不染

html

我到处都是，只找到了适用于python 2.6和更早版本的解决方案，没什么关于如何在python 3.X中做到这一点的。（我只能访问Win7框。）

我必须能够在3.1中做到这一点，并且最好不要使用外部库。目前，我已经安装了httplib2并可以访问命令提示符curl（这就是我获取页面源代码的方式）。不幸的是，据我所知，curl无法解码html实体，我在文档中找不到用于对其进行解码的命令。

是的，我尝试过《美丽汤》，但在3.X中很多次都没有成功。如果您能提供有关如何使其在MS Windows环境中的python
3中运行的EXPLICIT说明，我将不胜感激。

因此，很明显，我需要将这样Suzy & John的字符串转换为这样的字符串：“ Suzy＆John”。

阅读 295

2020-05-10

共1个答案

一尘不染

您可以使用html.unescape函数：

在 Python3.4 +中 （感谢JF Sebastian的更新）：

import html
html.unescape('Suzy &amp; John')
# 'Suzy & John'

html.unescape('&quot;')
# '"'

在 Python3.3 或更旧版本中：

import html.parser    
html.parser.HTMLParser().unescape('Suzy &amp; John')

在 Python2中 ：

import HTMLParser
HTMLParser.HTMLParser().unescape('Suzy &amp; John')

2020-05-10