爬虫cookie过期_为什么你的话题爬虫 topic 文件夹总是空的

192 阅读 0 评论 127 点赞

我是靠谱客的博主兴奋洋葱，这篇文章主要介绍爬虫cookie过期_为什么你的话题爬虫 topic 文件夹总是空的，现在分享给大家，希望可以做个参考。

这是月小水长的第 45 篇原创干货

话题爬虫 WeiboTopicScrapy.py 开源以来，收到最多的反馈就是：为什么我爬了那么久，我的 topic 文件总是没有 csv 文件生成？

其实程序一运行起来，没有在控制台打印出每一页微博的具体信息，就可以断定你的操作方式出了问题，不必等上十几二十分钟。

我总结了话题爬虫所有可能的错误及解决办法，在此统一说明。

话题爬虫是针对 weibo.cn 的，你需要在 weibo.cn 站的 login 页复制 cookie。

cookie 应该是包含 SUB 这个关键字段的，如果你复制了 m 站 cookie 或者没填 cookie 或者乱填 cookie，那么会出现以下错误：

这个错误最明显的特征就是，我明明以前成功运行过的，今天运行却出现了下面这样的问题：

此时只需要重新去 weibo.cn 复制 cookie 就行。

这个错误和 cookie 过期的差异在于，通常是在页码很大，比如 100 以上的情况，这个时候，有两个原因：

本次话题搜索的结果全部下载下来了，直接关掉程序就行。
一次搜索最多只能 100+ 页，如果把时间段切分成最小单位，即逐天搜索，如果总结果有几千页，我们可以修改 413 行处的代码：for page in range(1, pageNum): ，比如第一次 130 空白了，下次运行前，把这个 1 改成 130。