我是靠谱客的博主 勤恳口红,最近开发中收集的这篇文章主要介绍(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

  • 问题描述

    爬虫任务中,所需内容在:

    <table class="table_search_">
        <tbody>
            <tr>...</tr>
            <tr>...</tr>
            <tr>...</tr>
    

    可以定位到table class="table_search_",但是没有想要的内容。即,无法提取tbody内容。

  • 问题解析

    [爬虫]xpath无法定位tbody标签(已解决)

    tbody 不是必须存在的,ChromeElements标签页里一定会存在tbody(如果原生网页没有,chrome会自动添加),selenium返回的是chromeElements内容,因此也一定会存在tbody.

    requests则不同,如果源html中未添加,则返回内容中就没有.

  • 解决方案

    《深入理解爬虫:网页分析||审查元素》

    从上文中“对于network抓包作用的理解”这部分中,可以理解本例问题中table下的内容不是当前网页直接返回的html,所以直接get当前网页,是无法解析出内容的。

    需要通过network抓包分析出所需内容是哪个链接给出的,然后对那个链接进行单独get

    本例中headers里需要:Referer, User-Agent两项。关于其意义,参见《理解http request headers中Referer||User-Agent||Cookie…的意义》

  • References

  1. scrapy的xpath无法匹配tbody标签
  2. xpath解析网页中tbody问题

最后

以上就是勤恳口红为你收集整理的(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody的全部内容,希望文章能够帮你解决(20201201- 问题已解决)request爬虫beautifulsoup无法提取tbody所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(41)

评论列表共有 0 条评论

立即
投稿
返回
顶部