我是靠谱客的博主 勤恳口红,最近开发中收集的这篇文章主要介绍(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
-
问题描述
爬虫任务中,所需内容在:
<table class="table_search_"> <tbody> <tr>...</tr> <tr>...</tr> <tr>...</tr>
可以定位到
table class="table_search_"
,但是没有想要的内容。即,无法提取tbody
内容。 -
问题解析
[爬虫]xpath无法定位tbody标签(已解决)
tbody
不是必须存在的,Chrome
的Elements
标签页里一定会存在tbody
(如果原生网页没有,chrome会自动添加),selenium
返回的是chrome
的Elements
内容,因此也一定会存在tbody
.而
requests
则不同,如果源html中未添加,则返回内容中就没有. -
解决方案
《深入理解爬虫:网页分析||审查元素》
从上文中“对于
network
抓包作用的理解”这部分中,可以理解本例问题中table
下的内容不是当前网页直接返回的html
,所以直接get
当前网页,是无法解析出内容的。需要通过
network
抓包分析出所需内容是哪个链接给出的,然后对那个链接进行单独get
。本例中headers里需要:
Referer
,User-Agent
两项。关于其意义,参见《理解http request headers中Referer||User-Agent||Cookie…的意义》 -
References
- scrapy的xpath无法匹配tbody标签
- xpath解析网页中tbody问题
最后
以上就是勤恳口红为你收集整理的(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody的全部内容,希望文章能够帮你解决(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复