一尘不染

如何使用Selenium Python从reddit.com搜索页面上的问题中提取标题和href属性

selenium

我要在页面https://www.reddit.com/search?q=Expiration&type=link&sort=new上抓取所有问题的链接和标题。元素具有以下结构:

<a data-click-id="body" class="SQnoC3ObvgnGjWt90zD9Z" href="/r/excel/comments/ayiahc/calculating_expiration_dates_previous_solution_no/">
    <h2 class="s1okktje-0 cDxKta">
        <span style="font-weight:normal">Calculating Expiration Dates - Previous Solution No Longer Works</span>
    </h2>
</a>

questions = driver.find_elements_by_xpath('//a[@data-click- id="body"]')习惯于获取问题,然后通过进行迭代for。我很高兴使用它question.get_attribute('href')来获取链接。

不过,我不知道如何提取里面的标题span(从question)。

有谁知道如何做到这一点?


阅读 325

收藏
2020-06-26

共1个答案

一尘不染

请尝试以下。

question.find_element_by_tag_name('span').text

或简单地

question.text
2020-06-26