如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

一尘不染

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

selenium

我要在页面 https://www.reddit.com/search?q=Expiration&type=link&sort=new上抓取所有问题的链接和标题。元素具有以下结构：

<a data-click-id="body" class="SQnoC3ObvgnGjWt90zD9Z" href="/r/excel/comments/ayiahc/calculating_expiration_dates_previous_solution_no/">
    <h2 class="s1okktje-0 cDxKta">
        <span style="font-weight:normal">Calculating Expiration Dates - Previous Solution No Longer Works</span>
    </h2>
</a>

我questions = driver.find_elements_by_xpath('//a[@data-click- id="body"]')习惯于获取问题，然后通过进行迭代for。我很高兴使用它question.get_attribute('href')来获取链接。

不过，我不知道如何提取里面的标题span（从question）。

有谁知道如何做到这一点？

阅读 332

2020-06-26

共1个答案

一尘不染

请尝试以下。

question.find_element_by_tag_name('span').text

或简单地

question.text

2020-06-26