我是靠谱客的博主 兴奋洋葱,最近开发中收集的这篇文章主要介绍爬虫cookie过期_为什么你的话题爬虫 topic 文件夹总是空的,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

    点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 45 篇原创干货

话题爬虫 WeiboTopicScrapy.py 开源以来,收到最多的反馈就是:为什么我爬了那么久,我的 topic 文件总是没有 csv 文件生成?

               e3c0df19bf6f6b12e098a5e3ebd0fbaf.gif

其实程序一运行起来,没有在控制台打印出每一页微博的具体信息,就可以断定你的操作方式出了问题,不必等上十几二十分钟。

我总结了话题爬虫所有可能的错误及解决办法,在此统一说明。

cookie 复制错了

话题爬虫是针对 weibo.cn 的,你需要在 weibo.cn 站的 login 页复制 cookie。

ec34fa89dcb8cd7f3e933113eb814ad3.png

cookie 应该是包含 SUB 这个关键字段的,如果你复制了 m 站 cookie 或者没填 cookie 或者乱填 cookie,那么会出现以下错误:

c22c3a33f54733357c666bff99a20d14.png

cookie 过期了

这个错误最明显的特征就是,我明明以前成功运行过的,今天运行却出现了下面这样的问题:

3916cbeb25114a60caa57a972271d824.png

此时只需要重新去 weibo.cn 复制 cookie 就行。

cookie 没有过期还是出现了和 cookie 过期一样的空白

这个错误和 cookie 过期的差异在于,通常是在页码很大,比如 100 以上的情况,这个时候,有两个原因:

  • 本次话题搜索的结果全部下载下来了,直接关掉程序就行。
  • 一次搜索最多只能 100+ 页,如果把时间段切分成最小单位,即逐天搜索,如果总结果有几千页,我们可以修改 413 行处的代码:for page in range(1, pageNum): ,比如第一次 130 空白了,下次运行前,把这个 1 改成 130。

修改了一点小 Bug

当 filter=0 即抓取所有微博时,保存的 csv 文件表头和表格内容会错位,现已修复并推送 Github。

最后

以上就是兴奋洋葱为你收集整理的爬虫cookie过期_为什么你的话题爬虫 topic 文件夹总是空的的全部内容,希望文章能够帮你解决爬虫cookie过期_为什么你的话题爬虫 topic 文件夹总是空的所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(39)

评论列表共有 0 条评论

立即
投稿
返回
顶部