Scrapy项目之User timeout caused connection failure（异常记录）

81 阅读 0 评论 54 点赞

我是靠谱客的博主腼腆吐司，这篇文章主要介绍Scrapy项目之User timeout caused connection failure（异常记录），现在分享给大家，希望可以做个参考。

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，

提示：此文存在问题，真正测试，请勿阅读，

07-14 14:26更新：

经过两个多小时的测试，发现此问题的原因是昨天编写爬虫程序后，给爬虫程序添加了下面的属性：

download_timeout = 20

此属性的解释：

The amount of time (in secs) that the downloader will wait before timing out.

在获取某网站的子域名的robots.txt文件时，需要的时间远远超过20秒，因此，即便有三次重试的机会，也会最终失败。

此值默认为180，因为某网站是国内网站，因此，孤以为它的文件全部都会下载的很快，不需要180这么大，于是更改为20，谁知道，其下子域名的robots.txt却需要这么久：

测试期间更改为30时，状况好了，目前已取消设置此值，已能抓取到需要的数据。

可是，为什么robots.txt会下载这么慢呢？

删除Request中定义的errback进行测试，也可以获取到需要的数据。

那么，在Request中定义errback有什么用呢？

现在，再次在项目内、项目外执行下面的命令都不会发生DNSLookupError了

以上就是腼腆吐司最近收集整理的关于Scrapy项目之User timeout caused connection failure（异常记录）的全部内容，更多相关Scrapy项目之User内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

$Scrapy 遇到问题报错‘module \‘OpenSSL.SSL\‘ has no attribute \‘SSLv3_METHOD\‘‘$