一尘不染

Web抓取,屏幕抓取,数据挖掘技巧?

java

我正在做一个项目,我需要做很多屏幕抓取工作,以尽可能快地获取大量数据。我想知道是否有人知道任何好的API或资源来帮助我。

顺便说一下,我正在使用Java。

到目前为止,这是我的工作流程:

  1. 连接到网站(使用来自Apache的HTTPComponents)
  2. 网站包含一个带有一堆我需要访问的链接的部分(使用内置的Java HTML解析器来弄清楚我需要访问的所有链接是什么,这很烦人且凌乱的代码)
  3. 访问我找到的所有链接
  4. 对于我访问的每个链接,我需要提取更多数据,并将其分散在多个页面上,因此我可能需要访问更多链接

想法:

  • 有谁知道比内置Java更高级/更智能的html解析器?
  • 基本上,这是深度优先搜索。我想我想在某个时候使它成为多线程,以便可以并行访问其中的一些链接。
  • 也许我真正想要的是一个多线程Web爬网库

如果您还没有弄清楚,这是我第一次弄明白这一点,因此我很难说清楚我的需求是什么。非常感谢您之前曾经做过的任何人的投入。


阅读 219

收藏
2020-12-03

共1个答案

一尘不染

我发现JSoup非常适合HTML解析。

有关更多指针,请查看本文:如何编写多线程网络爬虫

2020-12-03