RegEx匹配XHTML自包含标签以外的打开标签

一尘不染

html

我需要匹配所有这些开始标签：

<p>
<a href="foo">

但不是这些：

<br />
<hr class="foo" />

我想出了这个，想确保我做对了。我只是捕捉到a-z。

<([a-z]+) *[^/]*?>

我相信它说：

我有那个权利吗？更重要的是，您怎么看？

阅读 453

2020-05-10

共1个答案

一尘不染

尽管只有正则表达式的任意 HTML是不可能的，但有时使用它们来解析有限的已知 HTML集合是适当的。

如果您想从一小撮HTML页面中抓取数据，然后将它们填充到数据库中，则正则表达式可能会正常工作。例如，我最近想获得我从议会网站上获得的澳大利亚联邦代表的姓名，政党和地区。这是一项有限的一次性工作。

正则表达式对我来说效果很好，并且安装起来非常快。

2020-05-10