使用JAVA解析网站HTML

一尘不染

使用JAVA解析网站HTML

html

我想解析一个简单的网站，并从该网站中抓取信息。

我曾经用DocumentBuilderFactory解析XML文件，但我尝试对html文件做同样的事情，但是它总是陷入无限循环。

    URL url = new URL("http://www.deneme.com");
    URLConnection uc = url.openConnection();

    InputStreamReader input = new InputStreamReader(uc.getInputStream());
    BufferedReader in = new BufferedReader(input);
    String inputLine;

     FileWriter outFile = new FileWriter("orhancan");
     PrintWriter out = new PrintWriter(outFile);

    while ((inputLine = in.readLine()) != null) {
        out.println(inputLine);
    }

    in.close();
    out.close();

    File fXmlFile = new File("orhancan");
    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
    Document doc = dBuilder.parse(fXmlFile);


    NodeList prelist = doc.getElementsByTagName("body");
    System.out.println(prelist.getLength());

有什么问题吗？还是有任何更简单的方法可以从网站中获取给定html标签的数据？

阅读 306

2020-05-10

共1个答案

一尘不染

有一种更简单的方法可以做到这一点。我建议使用JSoup。使用JSoup，您可以执行以下操作

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

或者，如果您想要身体：

Elements body = doc.select("body");

或者，如果您需要所有链接：

Elements links = doc.select("body a");

您不再需要获得连接或处理流。简单。如果您曾经使用过jQuery，那么它与之非常相似。

2020-05-10