使用Python从HTML文件中提取文本

一尘不染

使用Python从HTML文件中提取文本

python

我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。

我想要比使用正则表达式更强大的功能，而正则表达式可能在格式不正确的HTML上失败。我见过很多人推荐美丽汤，但是使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 在HTML源代码中转换为文本中的撇号，就像将浏览器内容粘贴到记事本中一样。

更新 html2text看起来很有希望。它正确处理HTML实体，并忽略JavaScript。但是，它不能完全产生纯文本；它产生markdown，然后必须将其转换为纯文本。它没有示例或文档，但是代码看起来很干净。

阅读 963

2020-02-14

共1个答案

一尘不染

html2text是一个Python程序，在此方面做得很好。

2020-02-14