Python BeautifulSoup - 如何抓取 < td> 中的值内的链接

小能豆

Python BeautifulSoup - 如何抓取 < td> 中的值内的链接 < a>

Python BeautifulSoup - 如何抓取 <td> 中的值内的链接 <a>

阅读 19

2025-01-06

共1个答案

小能豆

使用 Python 的 BeautifulSoup 抓取 <td> 标签中 <a> 标签内的链接，可以通过以下步骤实现：

示例 HTML

假设我们有以下 HTML：

<table>
    <tr>
        <td>
            <a href="https://example.com/page1">Link 1</a>
        </td>
        <td>
            <a href="https://example.com/page2">Link 2</a>
        </td>
    </tr>
</table>

代码示例

以下代码展示了如何提取 <td> 标签中 <a> 的链接 (href 属性值)：

from bs4 import BeautifulSoup

# 示例 HTML
html = """
<table>
    <tr>
        <td>
            <a href="https://example.com/page1">Link 1</a>
        </td>
        <td>
            <a href="https://example.com/page2">Link 2</a>
        </td>
    </tr>
</table>
"""

# 解析 HTML
soup = BeautifulSoup(html, 'html.parser')

# 查找所有的 <td> 标签
td_tags = soup.find_all('td')

# 遍历 <td> 标签，提取其中 <a> 标签的链接
for td in td_tags:
    a_tag = td.find('a')  # 查找 <a> 标签
    if a_tag and a_tag.has_attr('href'):  # 检查是否存在 <a> 且有 href 属性
        print(a_tag['href'])

输出

https://example.com/page1
https://example.com/page2

扩展用法

1. 获取链接文本

如果你需要获取 <a> 的链接文本，可以通过 a_tag.text：

for td in td_tags:
    a_tag = td.find('a')
    if a_tag:
        print("链接文本:", a_tag.text)  # 输出链接文本
        print("链接地址:", a_tag['href'])  # 输出链接地址

2. 处理带多个链接的 `<td>`

如果一个 <td> 中有多个 <a> 标签，可以使用 find_all：

for td in td_tags:
    a_tags = td.find_all('a')  # 找到所有 <a> 标签
    for a_tag in a_tags:
        if a_tag.has_attr('href'):
            print(a_tag['href'])

3. 通过特定条件筛选链接

可以根据链接内容筛选（例如链接包含特定字符串）：

for td in td_tags:
    a_tag = td.find('a')
    if a_tag and 'example.com' in a_tag['href']:  # 筛选 href 包含 'example.com' 的链接
        print(a_tag['href'])

4. 从特定 `<table>` 抓取链接

如果 HTML 中有多个 <table>，可以先定位到特定的表格：

# 假设表格有一个 id="target-table"
table = soup.find('table', {'id': 'target-table'})

# 提取该表格中的 <td> 和 <a> 链接
if table:
    td_tags = table.find_all('td')
    for td in td_tags:
        a_tag = td.find('a')
        if a_tag and a_tag.has_attr('href'):
            print(a_tag['href'])

注意事项

HTML 结构可能不一致：
确保目标 HTML 符合预期。如果 <td> 中没有 <a> 或者链接是动态生成的（如通过 JavaScript），需要相应调整代码或使用动态解析工具（如 Selenium）。
编码问题：
如果抓取的内容中包含非 ASCII 字符，可能需要设置正确的编码：
python soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')
异常处理：
为避免因标签缺失导致的错误，可以添加异常处理：
python try: a_tag = td.find('a') if a_tag and a_tag.has_attr('href'): print(a_tag['href']) except Exception as e: print(f"跳过错误: {e}")