一尘不染

Java HTML解析

java

我正在开发一个从网站上抓取数据的应用程序,我想知道应该如何获取数据。具体来说,我需要包含在使用特定CSS类的许多div标签中的数据-目前(出于测试目的)我只是在检查

div class = "classname"

在HTML的每一行中-都可以,但是我不禁感到有更好的解决方案。

有什么好方法可以给类添加一行HTML并提供一些好方法,例如:

boolean usesClass(String CSSClassname);
String getText();
String getLink();

阅读 800

收藏
2020-03-09

共1个答案

一尘不染

“ JTidy是HTML Tidy的Java端口,HTML Tidy是HTML语法检查器和漂亮的打印机。像其非Java表亲一样,JTidy可以用作清理格式错误的HTML的工具。此外,JTidy还提供了DOM接口。正在处理的文档,有效地使您能够将JTidy用作真实HTML的DOM解析器。

JTidy由Andy Quick撰写,后来他退出了维护者职位。现在,JTidy由一群志愿者维护。

在JTidy SourceForge项目页面上可以找到有关JTidy的更多信息。”

2020-03-09