一尘不染

处理特殊实体,例如  ,&磅; 在HtmlCleaner中

jsp

我正在使用HtmlCleaner库进行html内容提取。它工作正常,但没有什么限制。

它无法处理特殊字符,例如&pound或引号等。例如,用于url:http :
//www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-
classukmadespan-p-280
.html,在给xpath价格时,它给了我“&磅;” 代替£

我们可以在htmlcleaner中设置任何属性来处理此解决方案或任何其他解决方案。

谢谢

吉滕德拉


阅读 305

收藏
2020-06-10

共1个答案

一尘不染

不,我不相信HtmlCleaner可以做到这一点。但是,您可以使用Apache Commons
StringEscapeUtils
来“转义”
html,如下所示:

StringEscapeUtils.unescapeHtml("£679.00");

会产生£679.00

我建议您尝试使用JSoup而不是HtmlCleaner

2020-06-10