一尘不染

RegEx 匹配打开的标签,XHTML 自包含标签除外

javascript

我需要匹配所有这些开始标签:

<p>
<a href="foo">

但不是这些:

<br />
<hr class="foo" />

我想出了这个,并想确保我做对了。我只捕获a-z.

<([a-z]+) *[^/]*?>

阅读 135

收藏
2022-02-11

共1个答案

一尘不染

虽然只有一个正则表达式的任意HTML 是不可能的,但有时使用它们来解析有限的已知HTML 集是合适的。

如果您有一小部分 HTML 页面,您想从中抓取数据然后将其填充到数据库中,那么正则表达式可能会正常工作。例如,我最近想获得澳大利亚联邦代表的姓名、政党和选区,这是我从议会网站上下载的。这是一项有限的一次性工作。

正则表达式对我来说工作得很好,而且设置起来非常快。

2022-02-11