(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody

339 阅读 0 评论 224 点赞

我是靠谱客的博主勤恳口红，这篇文章主要介绍(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody，现在分享给大家，希望可以做个参考。

问题描述

爬虫任务中，所需内容在:
```
<table class="table_search_">
    <tbody>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
```
可以定位到table class="table_search_"，但是没有想要的内容。即，无法提取tbody内容。
问题解析

[爬虫]xpath无法定位tbody标签（已解决）

tbody 不是必须存在的,Chrome的Elements标签页里一定会存在tbody(如果原生网页没有,chrome会自动添加),selenium返回的是chrome的Elements内容,因此也一定会存在tbody.

而requests则不同,如果源html中未添加,则返回内容中就没有.
解决方案

《深入理解爬虫:网页分析||审查元素》

从上文中“对于network抓包作用的理解”这部分中，可以理解本例问题中table下的内容不是当前网页直接返回的html，所以直接get当前网页，是无法解析出内容的。

需要通过network抓包分析出所需内容是哪个链接给出的，然后对那个链接进行单独get。

本例中headers里需要：Referer, User-Agent两项。关于其意义，参见《理解http request headers中Referer||User-Agent||Cookie…的意义》
References

scrapy的xpath无法匹配tbody标签
xpath解析网页中tbody问题

最后

以上就是勤恳口红最近收集整理的关于(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody的全部内容，更多相关(20201201-内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(224)

本文分类：# 小白学Python
浏览次数：339 次浏览
发布日期：2024-01-15 11:55:23

相关文章

python学习笔记——BeautifulSoup对象属性操作

python学习笔记——BeautifulSoup对象属性操作

python+selenium小结16：导入Beautiful Soup ，获取表格中指定列的数据

python+selenium小结16：导入Beautiful Soup ，获取表格中指定列的数据

Python爬虫库BeautifulSoup获取对象名,属性,内容,注释

Python爬虫库BeautifulSoup获取对象名,属性,内容,注释

Python爬虫包 BeautifulSoup 学习（五）实例

Python爬虫包 BeautifulSoup 学习（五）实例

(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody

(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody

beautifulsoup爬取网页中的表格_PYTHON爬取数据储存到excel

beautifulsoup爬取网页中的表格_PYTHON爬取数据储存到excel

BeautifulSoup4 解析列表出现丢失（已解决）

BeautifulSoup4 解析列表出现丢失（已解决）

Beautifulsoup 超简单例子

Beautifulsoup 超简单例子

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部