一尘不染

任何好的Java HTML解析器?

javascript

到目前为止,我一直在使用Cobra,因为它很容易,但是不幸的是,它在一些测试用例中存在一些问题。有人建议使用经过测试的库吗?

我尝试了Cobra内置的HTMLCleaner并没有运气。


阅读 324

收藏
2020-09-25

共2个答案

一尘不染

Mozilla HTML Parser 看起来很有趣。根据定义,它应该和Gecko引擎本身一样好,这很可能满足您的需

2020-09-25
一尘不染

当处理糟糕的HTML / XHTML时,TagSoup确实很棒。

Jericho(和NekoHTML)也可以解析无效的HTML。

TagSoup和Jericho:久经考验。NekoHTML:来自可靠来源的反馈。

2020-09-25