如何使用Node.js解析HTML页面

一尘不染

如何使用Node.js解析HTML页面

node.js

我需要解析（服务器端）大量的HTML页面。
我们都同意，regexp不是行之有效的方法。
在我看来，javascript是解析HTML页面的本机方式，但是这种假设取决于服务器端代码，该代码具有javascript在浏览器内部具有的所有DOM功能。

Node.js是否具有内置的功能？
有没有更好的方法来解决此问题，请在服务器端解析HTML？

阅读 238

收藏

2020-07-07

共1个答案

一尘不染

您可以使用npm模块jsdom和htmlparser在Node.JS中创建和解析DOM。

其他选项包括：

Python的BeautifulSoup
您可以将html转换为xhtml并使用XSLT
NET的HTMLAgilityPack
.NET的CsQuery（我的新宠）
Spidermonkey和Rhino JS引擎具有本机E4X支持。仅当您将html转换为xhtml时，这才有用。

在所有这些选项中，我更喜欢使用Node.js选项，因为它使用了标准的W3C
DOM访问器方法，并且可以在客户端和服务器上重用代码。我希望BeautifulSoup的方法与W3C
dom更相似，并且我认为将HTML转换为XHTML以编写XSLT简直是可悲的。

2020-07-07