一尘不染

如何使用Rselenium读取html表?

selenium

我正在使用Rselenium导航到网页。以下代码正在执行此操作。我没有提供该网址,因为我在需要VPN连接的公司中使用该网址:

RSelenium::startServer()
require(RSelenium)
remDr <- remoteDriver()
remDr$navigate("some url")

导航到该网页后,在html源代码中,有下表:

<font size="2">
<table border="1">
<tbody>
<tr>
<td> item1 </td>
<td> 0 </td>
<td> 0.05 </td>
<td> 2.43 </td>
<td align="center"> Pct </td>
<td align="center"> 1 </td>
</tr>
</tbody>
</table>

现在的问题是如何提取该表的内容?请假定该URL不存在,否则我可以使用XML函数:readHTMLTable(remDr $
getCurrentUrl())。但这出于某些原因不起作用。我只需要使用remoteDriver句柄(remDr)。非常感谢您的时间


阅读 242

收藏
2020-06-26

共1个答案

一尘不染

就像是:

library(XML)
doc <- htmlParse(remDr$getPageSource()[[1]])
readHTMLTable(doc)

应该允许您访问html并处理包含的表。

2020-06-26