我是靠谱客的博主 尊敬大船,最近开发中收集的这篇文章主要介绍02-27 提高scrapy爬取效率的方法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、增加并发(增加并发线程数)

scrapy默认开启的线程为32个,可以适当增加。在setting文件中修改为 100

2、降低日志级别

在运行scrapy时会有大量日志信息输出,为了减少日志信息的输出,降低CPU的使用率,可以设置

输出错误日志 LOG_LEVEL='ERROR'  或者 'INFO'

3、禁止cookie

如果不是真的需要cookie,则在爬取数据时可以禁止cookie,从而减少CPU的使用率。在
setting中写 COOKIES_ENABLED=False

4、禁止重试:

对失败的HTTP进行重新请求会降低爬取速度,因此可以禁止重试;设置 RETRY_ENABLED=False

5、减少下载超时

如果对一个非常慢的连接进行爬取,减少下载超时可以能让卡主的连接快速被放弃,从而提升
效率。设置: DOWNLOAD_TIMEUT=10 (超时时间为10s)

最后

以上就是尊敬大船为你收集整理的02-27 提高scrapy爬取效率的方法的全部内容,希望文章能够帮你解决02-27 提高scrapy爬取效率的方法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部