一尘不染

您如何将HTML转换为纯文本?

html

我在表格中存储了HTML片段。 不是整个页面,没有标签等,只是基本格式。

我希望能够在给定页面上将Html仅显示为文本,而 无需设置格式 (实际上只是前30-50个字符,但这很容易)。

如何将Html中的“文本”作为纯文本放入字符串中?

所以这段代码。

<b>Hello World.</b><br/><p><i>Is there anyone out there?</i><p>

成为:

你好,世界。有没有人在那里?


阅读 293

收藏
2020-05-10

共1个答案

一尘不染

如果您在谈论标签剥离,那么无需担心<script>标签之类的事情就相对简单了。如果您需要做的就是显示不带标签的文本,则可以使用正则表达式完成此操作:

<[^>]*>

如果您确实需要担心<script>标记之类的问题,那么您将需要比正则表达式更强大的功能,因为您需要跟踪状态,更像是上下文无关语法(CFG)。虽然您可能可以通过“从左到右”或非贪婪匹配来实现。

如果您需要CFG的更复杂的行为,我建议您使用第三方工具,但不幸的是,我不知道要推荐哪种工具。

2020-05-10